基于机器学习的扫视路径估计方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:feicheng11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息快速增长的时代,人类每秒钟可能会接收数以亿计的信息,一般认为这种数量级的信息已经远远超过了人实时处理信息的极限。人类视觉系统(Human Visual System)可以从输入的大量数据信息中提取出有价值的信息以供大脑皮层进行处理,如视觉记忆、信息分类、目标跟踪等。这种处理信息的机制就是视觉注意机制,它可以帮助人们在复杂的场景中提取信息并作出处理。计算机作为目前处理信息最快的工具之一,在计算机图像处理中引入视觉注意机制,不仅可以提高数据筛选能力,还可以提升模型的学习能力,进一步指导计算机模拟人视觉认知过程。  人们在获取信息时,会把注意力集中在自己感兴趣的区域上,随着观察区域的改变,人的注意力也随之转移,这些注视位置的变化可以分为两部分:注视点和扫视路径。注视点是显著性预测领域的研究目标,它反映了场景中最“显眼”、最引人注目的区域,以静态显著性图来反映图像的显著区域;而扫视路径则是动态地反映人是如何选择感兴趣区域的,体现了这些区域之间的顺序性。  本文通过对扫视路径现有理论知识和预测模型的调研,提出了基于机器学习的扫视路径估计方法,并搭建了基于循环神经网络的扫视路径估计模型。扫视路径是人眼在注视点之间的转移,是一个时间序列,相比于现有模型,该模型基于循环神经网络建模,循环神经网络的结构适合用于处理时间序列,而扫视路径也是时间序列,因此使用循环神经网络建模能更好的模拟人理解场景的过程,通过分析该过程来了解人的视觉认知机理。  本文基于循环神经网络搭建了扫视路径估计模型,通过加入视觉注意机制来增强模型的性能。将图像做为卷积神经网络的输入,得到输入图像的特征向量,得到的特征不仅包含空间信息还包含位置信息。同时使输入坐标经过嵌入函数,得到表征其特征的权重矩阵。将图像特征和训练样本作为解码网络的输入来训练网络,训练好的网络可以对输入的图片预测得到扫视路径。  本文工作表明,在基于机器学习的扫视路径估计模型中,循环神经网络建模时间序列能够很好地模拟人眼扫视路径。
其他文献
机器人捕捉运动目标是指机器人基于视觉伺服控制,完成运动目标的跟踪和抓取,是智能机器人的一个前沿应用课题,在工业、航天和娱乐等领域有良好的应用前景。机器人捕捉运动目
随着全球信息化的不断推进,网络技术得到了飞速发展,致使通过网络来延伸控制距离的远程控制成为可能。Internet作为全球网络的后起之秀,以其无与伦比的技术优势正逐渐将全世界的
随着平板显示技术的发展,等离子显示器(PDP)以其优良的性能越来越受到人们的关注,具有广阔的发展前景。本论文涉及的科研课题就来源于四川长虹集团公司主导的等离子显示器项
供应链网络(Supply Chain Networks,SCNs)是在全球经济一体化、市场竞争日趋激烈化和客户需求多元化的背景下产生的,SCNs管理主要是通过控制和协调SCNs中各个节点成员及其行为,
立体视觉是一种较为常用的深度获取方法,可以通过不同的基线和相机焦距配置获得较广的深度感知范围,但只适合纹理丰富和明亮的场景。Kinect是一种基于红外主动结构光的深度像
“简单整转”:并非灵丹妙药    不可否认,目前地方广电无论是在保持技术优势还是在争取政策支持上,都开始显得力不从心。因此,很多人认为惟有整体转换才能让地方广电摆脱困境——一方面,利用整转后新增频道,开展新业务增加收入;另一方面,通过整转一次性推广新技术,有效屏蔽竞争对手的威胁,巩固现有的垄断格局。  这些设想如果能够实现当然再好不过,但笔者不免怀疑,仅仅依靠简单化、模式化的整转,真能改变地方广电