论文部分内容阅读
视觉注意力选择是人类视觉系统(Human Vision System)的一项重要机制,它主要是通过大脑中的视觉系统对眼睛所接收到的信息进行精简和处理,从而将提炼后的信息传输到高级的中枢系统。通过这一功能的实现,人类能够很快地注意到视野中有意义的显著区域。在计算机视觉和人工智能领域,视觉注意力通常被作为预处理的步骤,用于实现后续的目标检测、图像分割、图像压缩等。 视觉注意力的机制分为自底向上(bottom-up)和自顶向下(top-down)两种,本文主要对前者进行了研究。自底向上的机制完全由数据驱动,这一类方法包括仿生物特性的NVT(Neuromorphic Vision Toolkit)、基于相位谱变换的PQFT(PhaseQuaternion Fourier Transform)以及基于工程计算的FTS(Frequency Tuned Saliency)等。其中,NVT和PQFT仅对较小目标或边缘信息的显著性预测有效,而FTS主要针对大目标的显著区域计算。 本论文首先针对现有视觉注意力模型的缺点和不足,基于生物学上非经典感受野(non-Classical Receptive Field)的发现,从频域分析的角度提出了一种新的频带挑选的方法。该方法同时考虑了空间频率的低频和高频成分信息,在分析了各频带的显著程度后,挑选出最优的频带以生成显著图。这一方法能够预测出不同尺寸目标的显著性,大幅改善了之前模型只针对单一类型数据的缺陷。 其次,在上述模型的基础上提出了基于白化(whitening)的改进频带选择模型。首先,我们采用去相关以及方差归一化的白化方法,来高效地提取出不同尺寸特征图的显著信息,避免了传统观方法分割或分块带来的复杂运算。另一方面,基于评价指标的优化,我们改进了模型关于挑选频带的权重函数。改进的方法无论对于注视点数据(fixation dataset)还是分割数据(segmentation dataset)都有很好的效果,同时与心理学实验的结果有良好的一致性。 最后,我们将所提出频带选择模型(自底向上机制),结合直线特征的提取(自顶向下机制),用于遥感图像的机场目标检测。传统检测方法基于滑动窗(sliding window)或者分割,往往计算复杂度较高,而注意力选择可以解决这样的问题。实验证明,通过自顶向下和自底向上机制的信息互补,该方法有更好的检测效果以及更低的虚警率。此外,我们还分析了不同融合策略、不同数量的学习样本以及不同的候选区域数目对检测结果的影响。