基于学习的视觉局部表达与索引

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:njpolice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于局部特征与视觉辞典的视觉局部表达与索引模型是当前主流的计算机视觉系统的基本组成部分,在目标识别、场景匹配、多媒体内容搜索与分析中具有广阔的应用前景,也是目前计算机视觉与多媒体分析的研究热点之一。局部视觉表达模型首先提取图像中的局部感兴趣点,然后在训练集合上构建视觉辞典,形成局部视觉空间的量化表以获取量化的视觉单词特征空间划分。进而,视觉辞典及其索引模型将图像表示为视觉词包,并在视觉单词上进行倒排索引。在当前主流的计算机视觉系统的应用研究已经表明,视觉局部表达模型具有很好的尺度与仿射变换不变性,并且能够较好的解决目标的部分遮挡与搜索中的部分匹配问题。  然而,研究中也发现,基于局部视觉特征与视觉辞典的视觉局部表达模型也存在着视觉判别力不足、表达过于稠密、无法反映高层语义等问题。本文主要针对局部特征抽取、视觉辞典构造过程中的视觉量化误差与语义描述力、进行研究,并且探讨了基于视觉单词共生模式的视觉辞典的输出表达。本文引入基于学习的机制,进行有监督或者无监督的视觉局部特征抽取、视觉辞典构建、视觉模式挖掘,试图构建一个基于学习的,分层次的视觉局部表达框架。在局部描述子抽取方面,本文试图通过空间上下文的学习和类别上下文的学习,将检测从局部域推进到局部-全局域之间。在无监督视觉词典及其索引学习方面,本文探究了传统视觉辞典中量化误差的起源,揭示了视觉单词与文本单词分布的差异性起源,和解决此差异性带来的影响,并探讨了辞典及其索引模型的泛化性和自适应学习能力。在有监督视觉辞典学习方面,本文同时探究了引入图像类别标签,监督视觉辞典的构建过程,从而将学习算法引入到特征空间的量化中。在优化的视觉辞典模型的基础上,本文进一步探究了由视觉单词到视觉短语的构建方法,研究了基于视觉单词空间组合的视觉模式生成方法和使用方法。具体而言,本文的主要研究内容如下:  在局部感兴趣点的提取检测阶段,提出了一种基于上下文的半局部感兴趣点检测子。该检测子结合了图像的尺度空间极值与位置空间的响应上下文进行图像中感兴趣点的检测。首先,提出了一种上下文高斯差分场,用以统计传统局部检测子的多尺度空间上下文,从而有效反映半局部域上的上下文感兴趣区域。实验进一步发现其与传统的视觉关注度模型有着一定程度上吻合。其次,通过均值漂移算法在上下文高斯差分场上定位检测结果,并且将分类训练的类别信息融入均值漂移核函数中,从而允许检测子发现对于后端分类器真正“感兴趣”的特征点。结合以上两种上下文,构建了稀疏、上下文敏感、具有类比判决力的半局部局部特征检测子。  在无监督视觉辞典优化与索引构造阶段,提出了一种基于密度的测距学习算法,通过无监督密度学习,进行特征空间的不等长量化。首先,通过在有判决力特征空间区域进行精细量化,而在无判决力特征空间区域进行粗糙量化,从而减少整体量化误差,同时也使得所构造的视觉单词具有和文本单词类似的分布。进而,提出了一种类似于集成学习的层次识别链,进行基于视觉辞典层次结构的快速识别,在保证识别匹配有效性的基础上提高算法效率。  在有监督的视觉辞典学习阶段,进一步提出了基于语义嵌入的有监督量化算法。该算法通过引入网络社区的图像标签信息,构建语义敏感的视觉辞典。首先,该算法提出了特征空间的密度-散度估计过程,在具有某类标签的图像集合中将标签从图像传播到感兴趣点上。其次,该算法将有监督的视觉辞典建模为隐马尔科夫随机场,其中观测场代表局部描述子集合,而隐场代表用户标签监督。隐场的监督通过吉布斯分布作用于观测场的局部描述子集合中,而有监督量化过程则被视为带隐场势能影响的观测场点集聚类过程。同时,我们采用WordNet对隐场中的语义标签相关性进行建模,从而更好地消除用户标签的同义性噪声。  在视觉辞典的输出表达阶段,提出了基于共生性视觉短语挖掘的辞典优化学习算法。通过编码局部描述子在图像中的空间相对位置,生成共生视觉模式候选集合。进而,提出一种基于Aprior引力距离的共生模式挖掘学习,生成对于类别敏感的二阶视觉单词组合。该二阶单词组合具有表达更稀疏,更具判决力的特质,从而缩减了传统的,基于视觉词包的表达的高维度问题,获取了更有判决力,维数更低的视觉局部描述。在视觉搜索与匹配的基线数据库中进行了量化的评测表明,所提出的视觉模式挖掘算法能够结合传统的基于视觉词包的表达,进一步提高大规模视觉搜索的性能。
其他文献
聚类算法是一种无监督的算法。它是一种将分散着的数据对象划分到相应的类当中的过程。在聚类之后,同一个类当中的数据对象及其相似的,相反,在不同类当中的数据对象则尽可能
无线频谱是无线网络中最珍贵的资源之一,随着无线网络的发展,未授权频谱资源越来越拥挤,而授权频谱的利用率却相对较低,为提高授权频谱的利用率,提出了认知无线电网络(CRN)。
互联网的域间路由系统使用边界网关协议BGP在不同自治系统之间传递路由可达性信息。作为BGP协议的一部分,内部网关协议iBGP用于在单个自治系统内部的路由器之间传播自治系统之
作为一类主要的组合优化问题,车辆路径问题(VRP)一直受到了计算机科学和运筹学界的广泛关注,在实际工业生产调度中发挥了重要的作用。然而随着交通线路的日趋复杂化以及客户
目前,获取图像的方法越来越丰富,得到图像的数量也在不断增多,近几年数字图像处理方面的研究工作受到了大量学者的关注,一些图像处理的基础研究工作也随之变得重要起来。在很
随着全球信息数字化进程的日益加快,二值图像因其存储简单、结构紧凑的优势得到广泛应用,许多重要资料以二值图像格式保存,所以研究二值图像中的信息隐藏对于信息安全和产权
传统的并行计算任务往往由大型的并行计算机来完成,因而并行机的研究也就成为并行计算的主要研究方向。随着经济和科技的发展,生物医学、天气预报、高能物理等领域的计算任务
随着网络技术和因特网的迅速发展,网络已经成为人们进行交流和相互联系的有效平台,它存储了大量的信息、数据。由于信息量的庞大,对于网络用户来说,如何能够及时地发现和利用有用
保护主机防止潜在的恶意移动代码(malicious mobile code)是移动代码安全的重要问题之一,当前国内外的很多研究机构针对此问题已经做了大量研究。其中,携带模型代码(Model Ca
作为知识发现中的核心环节,数据挖掘能够从海量数据中提取有价值的信息,是当前人工智能和信息科学研究领域中的热点课题。基于粗糙集的数据挖掘,就是利用粗糙集理论及方法从