面向在线教育应用的视觉交互关键技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zhangnaiyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国儿童数量快速增长以及中国社会化进展全面加快,城市留守儿童问题愈加严重。为缓解该问题,市场上诞生出多种智能化在线教育应用产品,如桌面教育机器人、作业帮等。但目前市场上在线教育应用主要依靠人工手动的接触式方式进行交互,而非接触式交互方式如视觉交互方式更符合用户的自然行为。但基于视觉的交互方式由于光线变化、角度变化、遮挡等因素使其在应用上存在一定的难点,因此如何将视觉交互方式应用到在线教育应用中是一项非常值得研究的工作。本文对计算机视觉相关算法进行深入研究之后,针对桌面教育机器人视觉交互中的难点,从图像定位分割,图像检索两个方向展开工作,具体概括如下:1.针对拍摄图像中存在背景、光照、噪声以及遮挡等干扰因素的问题,提出了一种图像定位分割算法。该算法运用Graph cut算法分割图像构造Mask矩阵,并利用Mask矩阵进行边缘检测以及霍夫变换直线拟合再进行旋转矫正以及遮挡轮廓去除,从而分割出目标图像。基于该算法,本文利用不同手机设备、摄像头在不同场景下拍摄并提取出目标书本图像,构建1200张书本图像数据集。2.为缩小图像检索中低阶视觉特征和人类高阶认知之间存在的语义鸿沟,本文提出12层的残差网络DreNet,并加入Batch Normalization层加快模型收敛速度,该网络通过多层卷积提取并组合图像内容特征,从而学习出书本图像的潜在语义特征,实验验证,该模型在书本图像数据集上能够取得98.2%的分类准确率。3.针对传统特征无法丰富表达图像内容的缺点,本文借鉴迁移学习的思想,通过对DreNet模型进行改进并引入PCA降维,从而提出一种深度特征提取因子。实验表明,该特征提取因子较传统特征在图像检索的不同返回列表长度下准确率、召回率以及F1值上均有较大提升。本文针对当前视觉交互中的难点,对图像定位分割以及图像检索进行深入研究,并对不同难点提出了解决方案。此外,本文基于Python Tkinter库并结合图像定位分割算法、深度特征提取因子、百度语音识别API搭建智能教育交互系统,实现图像读取、图像定位分割、图像检索、语音识别等功能。
其他文献
针对大学生上网的负面影响,应加强对大学生的意识形态教育、中华民族传统美德和优秀文化教育,努力实现教育方式的现代化、多媒体化.优化校园环境,营造舆论氛围,提高学生辨别
湿地是具有很高生态效益的自然景观,在自然界中具有重要的地位和作用。我国的湿地状况不客乐观,设计师在景观设计中应当加强湿地的建设,以创造具有较高环境效益的景观空间。
体育兴趣是个人对体育特殊的积极的认识倾向,是人们从事体育实践最强有力的动力.体育教师应帮助广大中学生端正对待体育的态度,正确树立"终身体育"的意识.
长期以来,党和政府十分重视消防监督管理工作,出台了大量的消防法律法规和技术标准,取得了较大的成绩,但由于体制、法律法规、财力等多方面的因素,我国消防监督管理工作在多方面仍
压力容器制造中常常用到热处理工艺,文章仅从焊后热处理和恢复性能热处理两方面阐述在压力容器制作过程中如何判断是否进行压力容器热处理。
土地征用是指国家为了社会公共利益的需要,按照法律、法规规定的批准权限和程序批准,并依法给予农村集体和个人补偿后,将农民集体所有土地转变为国家所有的行为。土地征用是保证