论文部分内容阅读
随着图像获取和分享技术的发展,人们所面对的图像数据量大幅增长。如何高效精准地获得用户感兴趣的图像成为了一个突出的问题。基于内容的图像检索(Content-Based Image Retrieval, CBIR)技术虽然近年来得到了长足发展,但是仍然无法满足人们的需求。其主要原因是:由于底层视觉特征与高层语义概念之间的语义鸿沟使得CBIR的精度不能满足需求;CBIR使用的图像特征向量通常很长,处理速度较慢;CBIR的输入对用户不够友好,因为用户通常很难找到跟自己所需的图像相似的查询样例。基于文本的图像检索(Text-Based Image Retrieval, TBIR)仅使用文本信息来进行图像的索引与搜索,与视觉信息相比,文本信息从本质上以人类更易理解的低维的简单的概念来描述图像的内容。但是,TBIR往往需要进行人工语义标注,只适合于小规模的专业图像库。近年来社交网络的发展,使得大批量的图像数据的语义标注成为可能。不过这些语义信息具有很大的随意性,包含有大量噪声且不完整。本文针对以上互联网图像数据库中图像数据检索存在的问题,结合CBIR和TBIR各自的优势,研究跨模语义信息获取方法,主要开展了以下研究工作:1.研究跨越文本和视觉内容的图像检索中的语义获取技术,提出图像检索中跨模语义信息获取模型。本文提出了一种跨模语义信息获取CSIA (Cross-modal Semantic Information Acquisition)。该模型框架以语义对象为研究核心,探索从图像的底层特征自动获取对象的语义信息,结合基于内容的相似度算法,对用户标签文本和底层特征获取的对象语义进行融合建模,实现高层语义的获取。CSIA实现图像底层特征向高层语义的跨越,避免了基于内容的语义获取所得到语义的单调性,又提高了用户标注文本中语义信息的可靠性,比单纯基于文本或基于内容的语义提取更加有效。2.研究基于内容的图像语义自动提取技术,提出一种基于对象轮廓形状的特征描述子,采用多粒度的策略,即尺度空间方向梯度直方图(Scale Space Histogram of Oriented Gradient, SSHOG),在多尺度上描述对象,并应用于图像中对象语义的自动获取。方向梯度直方图是对象检测领域最有效的特征描述子,但是该描述子只在一个固定的尺度上获取图像中对象的语义特征,使得图像中对象的识别率不高。对象的特征具有多尺度性质,识别某些部位需要利用细粒度的细节特征,而另外一些部位可能需要粗粒度的整体特征,还有一些部位需要粗粒度和细粒度的特征结合使用。采用SSHOG描述子,在行人检测基准测试数据集INRIA Person Dataset上,与目前应用最广泛的HOG描述子,进行实验比较,结果表明,图像中对象的识别准确率得到了提高3.研究图像相似度度量在图像检索中的应用,提出了一种新的Spatiogram距离度量,应用于图像底层特征到高层语义的映射。在系统分析了经典的图像颜色和空间特征的基础上,利用李群论中的理论工具,将空间直方图李群相似度度量(Lie Group Spatiogram Similarity, LGSS)用于图像语义的获取。空间直方图作为颜色直方图的扩展,能够有效的弥补颜色直方图丢失了图像空间分布信息的不足。但是由于空间直方图不再是简单的向量,而是高斯分布(即高斯函数)组成的集合,度量其相似度比较困难。因为相似度概念本身是与度量对象所在的拓扑空间(如欧几里德空间、流形等)结构相关的,即相似度本身是度量对象在其空间上与其它对象的距离远近,所以本文根据高斯函数空间的李群结构特性,采用基于李群元素间测地线距离的空间直方图相似度度量对图像进行比较。在图像检索基准测试数据集Corel dataset上的实验结果表明,利用基于LGSS的检索结果要优于采用其它基于空间直方图相似度度量的检索方法。4.研究图像融合与清理的方法,提出一种对图像的文本语义和内容语义进行融合的方法。该方法综合利用图像内容和图像的标注文本进行语义融合,能有效的获取图像中与用户检索目的一致的语义信息。一方面,基于图像内容进行对象语义自动提取(即自动标注),作为用户标注信息的补充;另一方面,根据图像内容的相似度度量对用户标注信息进行清理,过滤错误的标注信息并根据相似图像的标注相关性自动补充标注。最终提取的语义信息中既利用了用户标注语义的丰富性,又避免了用户标注信息中包含有大量噪声的缺陷。在多模图像检索标准测试数据集NUS-WIDE dataset上的实验结果表明,自动语义提取和基于内容相似性的用户标注信息清理均能提高最终的检索性能。本研究根据互联网图像数据库的新特点,综合利用图像视觉内容和文本两种模态的数据各自的优点,弥补各自的不足,进行图像语义信息提取,为图像检索系统服务,符合技术发展的趋势,对图像检索技术的发展具有重要的价值。