论文部分内容阅读
随着我国儿童数量快速增长以及中国社会化进展全面加快,城市留守儿童问题愈加严重。为缓解该问题,市场上诞生出多种智能化在线教育应用产品,如桌面教育机器人、作业帮等。但目前市场上在线教育应用主要依靠人工手动的接触式方式进行交互,而非接触式交互方式如视觉交互方式更符合用户的自然行为。但基于视觉的交互方式由于光线变化、角度变化、遮挡等因素使其在应用上存在一定的难点,因此如何将视觉交互方式应用到在线教育应用中是一项非常值得研究的工作。本文对计算机视觉相关算法进行深入研究之后,针对桌面教育机器人视觉交互中的难点,从图像定位分割,图像检索两个方向展开工作,具体概括如下:1.针对拍摄图像中存在背景、光照、噪声以及遮挡等干扰因素的问题,提出了一种图像定位分割算法。该算法运用Graph cut算法分割图像构造Mask矩阵,并利用Mask矩阵进行边缘检测以及霍夫变换直线拟合再进行旋转矫正以及遮挡轮廓去除,从而分割出目标图像。基于该算法,本文利用不同手机设备、摄像头在不同场景下拍摄并提取出目标书本图像,构建1200张书本图像数据集。2.为缩小图像检索中低阶视觉特征和人类高阶认知之间存在的语义鸿沟,本文提出12层的残差网络DreNet,并加入Batch Normalization层加快模型收敛速度,该网络通过多层卷积提取并组合图像内容特征,从而学习出书本图像的潜在语义特征,实验验证,该模型在书本图像数据集上能够取得98.2%的分类准确率。3.针对传统特征无法丰富表达图像内容的缺点,本文借鉴迁移学习的思想,通过对DreNet模型进行改进并引入PCA降维,从而提出一种深度特征提取因子。实验表明,该特征提取因子较传统特征在图像检索的不同返回列表长度下准确率、召回率以及F1值上均有较大提升。本文针对当前视觉交互中的难点,对图像定位分割以及图像检索进行深入研究,并对不同难点提出了解决方案。此外,本文基于Python Tkinter库并结合图像定位分割算法、深度特征提取因子、百度语音识别API搭建智能教育交互系统,实现图像读取、图像定位分割、图像检索、语音识别等功能。