论文部分内容阅读
对象发现是当前图形图像处理和人工智能研究的前沿科学问题,探索在非监督的条件下实现目标的识别。将此项研究的成果引入航空宇航制造领域,对提高航空宇航制造水平,促进学科交叉,意义重大。本文利用眼动跟踪技术,研究人的视觉注意力机制,进而,将人类拥有的强大的理解和识别能力引入对象发现研究中,提出一种对象发现的新方法,并探讨该方法在航空宇航制造中的应用。文章的主要研究工作和创新点有:1)提出了一种基于真实眼动数据构建可计算视觉注意力模型的新方法。首先建立了人在自由观看状态下自主版权的眼动数据库,在此基础上,利用马尔科夫链实现了可计算注意力模型的构建,并给出了马尔科夫链中的转移概率同真实眼动数据之间的关系。之后,在真实眼动数据上训练了一个支持向量回归模型,并根据提取的图像特征实现了马尔科夫链中转移概率的预测。最后通过求解马尔可夫链的平稳分布,得到图像的显著图。实验结果表明,本文提出的模型可以很好的模拟人在自由观看状态下的视觉注意力,并检测出感兴趣的目标。2)提出了一种基于视觉注意力的视觉词典构造新思路。首先确定图像上的仿射不变区域,然后根据本文所提出的可计算视觉注意力模型确定这些区域的显著性,选择那些显著的、人所关注的区域,抛弃那些无人关注的区域,并通过向量量化得到视觉单词词典。之后,基于所提出的视觉词典,分别利用朴素贝叶斯分类器和支持向量机,实现了物体类别的识别。该方法解决了在传统的视觉词典构建中,既需要包含尽可能多的信息,又面临运算量过大的问题。利用所提出的基于视觉注意力的视觉词典,对20种不同种类的物体进行识别的实验结果显示,在物体类别识别这一非常难的领域,用所提出的视觉词典可以明显提升物体类别识别的准确率,20种种类的平均识别准确率提高了1.65%。3)提出了一种基于视觉注意力的词袋模型图像表示方法。利用本文所提出的可计算注意力模型,计算出图像的显著图。根据得到的显著图,对在图像上出现的视觉单词,依据在其对应位置上的显著性给其分配相应的权值,然后用此加权过的视觉单词来表示图像。该方法解决了传统的基于词袋模型的图像表示对整幅图像上的所有区域进行一视同仁的处理,不能区分目标和背景,从而导致的效果不佳的问题。并在这种新型词袋模型图像表示方式的基础上,分别利用k均值算法和潜在概率语义分析模型实现了对象发现。实验结果显示,所提出的方法提升了对象发现的能力。4)通过对人的视觉注意力机制以及真实眼动数据的分析,提炼出了一种新颖的可计算注意力模型,该模型可模拟人在寻找特定目标情况下的视觉注意力,在此模型基础上,实现了视觉感知启发的对象发现及定位。首先建立人在寻找特定目标情况下的眼动数据库(eye tracking database for specific object,EDSO)。之后,提出并实现了一种基于概率潜在语义分析模型的目标种类特征提取方法,该方法可克服传统视觉注意力模型固有的缺点,即模型难以提取高级的目标特征,从而无法模拟人在寻找特定种类目标时的注意力。最后建立了一个前馈神经网络,并利用本文创建的EDSO数据库,实现了这一新颖视觉注意力模型的训练。并利用该模型,实现了特定种类目标及其位置的寻找。进而,验证了提出的模型在航空宇航制造中的应用能力。