论文部分内容阅读
在信息快速增长的时代,人类每秒钟可能会接收数以亿计的信息,一般认为这种数量级的信息已经远远超过了人实时处理信息的极限。人类视觉系统(Human Visual System)可以从输入的大量数据信息中提取出有价值的信息以供大脑皮层进行处理,如视觉记忆、信息分类、目标跟踪等。这种处理信息的机制就是视觉注意机制,它可以帮助人们在复杂的场景中提取信息并作出处理。计算机作为目前处理信息最快的工具之一,在计算机图像处理中引入视觉注意机制,不仅可以提高数据筛选能力,还可以提升模型的学习能力,进一步指导计算机模拟人视觉认知过程。 人们在获取信息时,会把注意力集中在自己感兴趣的区域上,随着观察区域的改变,人的注意力也随之转移,这些注视位置的变化可以分为两部分:注视点和扫视路径。注视点是显著性预测领域的研究目标,它反映了场景中最“显眼”、最引人注目的区域,以静态显著性图来反映图像的显著区域;而扫视路径则是动态地反映人是如何选择感兴趣区域的,体现了这些区域之间的顺序性。 本文通过对扫视路径现有理论知识和预测模型的调研,提出了基于机器学习的扫视路径估计方法,并搭建了基于循环神经网络的扫视路径估计模型。扫视路径是人眼在注视点之间的转移,是一个时间序列,相比于现有模型,该模型基于循环神经网络建模,循环神经网络的结构适合用于处理时间序列,而扫视路径也是时间序列,因此使用循环神经网络建模能更好的模拟人理解场景的过程,通过分析该过程来了解人的视觉认知机理。 本文基于循环神经网络搭建了扫视路径估计模型,通过加入视觉注意机制来增强模型的性能。将图像做为卷积神经网络的输入,得到输入图像的特征向量,得到的特征不仅包含空间信息还包含位置信息。同时使输入坐标经过嵌入函数,得到表征其特征的权重矩阵。将图像特征和训练样本作为解码网络的输入来训练网络,训练好的网络可以对输入的图片预测得到扫视路径。 本文工作表明,在基于机器学习的扫视路径估计模型中,循环神经网络建模时间序列能够很好地模拟人眼扫视路径。