论文部分内容阅读
基于局部特征与视觉辞典的视觉局部表达与索引模型是当前主流的计算机视觉系统的基本组成部分,在目标识别、场景匹配、多媒体内容搜索与分析中具有广阔的应用前景,也是目前计算机视觉与多媒体分析的研究热点之一。局部视觉表达模型首先提取图像中的局部感兴趣点,然后在训练集合上构建视觉辞典,形成局部视觉空间的量化表以获取量化的视觉单词特征空间划分。进而,视觉辞典及其索引模型将图像表示为视觉词包,并在视觉单词上进行倒排索引。在当前主流的计算机视觉系统的应用研究已经表明,视觉局部表达模型具有很好的尺度与仿射变换不变性,并且能够较好的解决目标的部分遮挡与搜索中的部分匹配问题。 然而,研究中也发现,基于局部视觉特征与视觉辞典的视觉局部表达模型也存在着视觉判别力不足、表达过于稠密、无法反映高层语义等问题。本文主要针对局部特征抽取、视觉辞典构造过程中的视觉量化误差与语义描述力、进行研究,并且探讨了基于视觉单词共生模式的视觉辞典的输出表达。本文引入基于学习的机制,进行有监督或者无监督的视觉局部特征抽取、视觉辞典构建、视觉模式挖掘,试图构建一个基于学习的,分层次的视觉局部表达框架。在局部描述子抽取方面,本文试图通过空间上下文的学习和类别上下文的学习,将检测从局部域推进到局部-全局域之间。在无监督视觉词典及其索引学习方面,本文探究了传统视觉辞典中量化误差的起源,揭示了视觉单词与文本单词分布的差异性起源,和解决此差异性带来的影响,并探讨了辞典及其索引模型的泛化性和自适应学习能力。在有监督视觉辞典学习方面,本文同时探究了引入图像类别标签,监督视觉辞典的构建过程,从而将学习算法引入到特征空间的量化中。在优化的视觉辞典模型的基础上,本文进一步探究了由视觉单词到视觉短语的构建方法,研究了基于视觉单词空间组合的视觉模式生成方法和使用方法。具体而言,本文的主要研究内容如下: 在局部感兴趣点的提取检测阶段,提出了一种基于上下文的半局部感兴趣点检测子。该检测子结合了图像的尺度空间极值与位置空间的响应上下文进行图像中感兴趣点的检测。首先,提出了一种上下文高斯差分场,用以统计传统局部检测子的多尺度空间上下文,从而有效反映半局部域上的上下文感兴趣区域。实验进一步发现其与传统的视觉关注度模型有着一定程度上吻合。其次,通过均值漂移算法在上下文高斯差分场上定位检测结果,并且将分类训练的类别信息融入均值漂移核函数中,从而允许检测子发现对于后端分类器真正“感兴趣”的特征点。结合以上两种上下文,构建了稀疏、上下文敏感、具有类比判决力的半局部局部特征检测子。 在无监督视觉辞典优化与索引构造阶段,提出了一种基于密度的测距学习算法,通过无监督密度学习,进行特征空间的不等长量化。首先,通过在有判决力特征空间区域进行精细量化,而在无判决力特征空间区域进行粗糙量化,从而减少整体量化误差,同时也使得所构造的视觉单词具有和文本单词类似的分布。进而,提出了一种类似于集成学习的层次识别链,进行基于视觉辞典层次结构的快速识别,在保证识别匹配有效性的基础上提高算法效率。 在有监督的视觉辞典学习阶段,进一步提出了基于语义嵌入的有监督量化算法。该算法通过引入网络社区的图像标签信息,构建语义敏感的视觉辞典。首先,该算法提出了特征空间的密度-散度估计过程,在具有某类标签的图像集合中将标签从图像传播到感兴趣点上。其次,该算法将有监督的视觉辞典建模为隐马尔科夫随机场,其中观测场代表局部描述子集合,而隐场代表用户标签监督。隐场的监督通过吉布斯分布作用于观测场的局部描述子集合中,而有监督量化过程则被视为带隐场势能影响的观测场点集聚类过程。同时,我们采用WordNet对隐场中的语义标签相关性进行建模,从而更好地消除用户标签的同义性噪声。 在视觉辞典的输出表达阶段,提出了基于共生性视觉短语挖掘的辞典优化学习算法。通过编码局部描述子在图像中的空间相对位置,生成共生视觉模式候选集合。进而,提出一种基于Aprior引力距离的共生模式挖掘学习,生成对于类别敏感的二阶视觉单词组合。该二阶单词组合具有表达更稀疏,更具判决力的特质,从而缩减了传统的,基于视觉词包的表达的高维度问题,获取了更有判决力,维数更低的视觉局部描述。在视觉搜索与匹配的基线数据库中进行了量化的评测表明,所提出的视觉模式挖掘算法能够结合传统的基于视觉词包的表达,进一步提高大规模视觉搜索的性能。