图像检索中跨模语义信息获取方法研究

来源 :武汉大学 | 被引量 : 11次 | 上传用户:realord111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着图像获取和分享技术的发展,人们所面对的图像数据量大幅增长。如何高效精准地获得用户感兴趣的图像成为了一个突出的问题。基于内容的图像检索(Content-Based Image Retrieval, CBIR)技术虽然近年来得到了长足发展,但是仍然无法满足人们的需求。其主要原因是:由于底层视觉特征与高层语义概念之间的语义鸿沟使得CBIR的精度不能满足需求;CBIR使用的图像特征向量通常很长,处理速度较慢;CBIR的输入对用户不够友好,因为用户通常很难找到跟自己所需的图像相似的查询样例。基于文本的图像检索(Text-Based Image Retrieval, TBIR)仅使用文本信息来进行图像的索引与搜索,与视觉信息相比,文本信息从本质上以人类更易理解的低维的简单的概念来描述图像的内容。但是,TBIR往往需要进行人工语义标注,只适合于小规模的专业图像库。近年来社交网络的发展,使得大批量的图像数据的语义标注成为可能。不过这些语义信息具有很大的随意性,包含有大量噪声且不完整。本文针对以上互联网图像数据库中图像数据检索存在的问题,结合CBIR和TBIR各自的优势,研究跨模语义信息获取方法,主要开展了以下研究工作:1.研究跨越文本和视觉内容的图像检索中的语义获取技术,提出图像检索中跨模语义信息获取模型。本文提出了一种跨模语义信息获取CSIA (Cross-modal Semantic Information Acquisition)。该模型框架以语义对象为研究核心,探索从图像的底层特征自动获取对象的语义信息,结合基于内容的相似度算法,对用户标签文本和底层特征获取的对象语义进行融合建模,实现高层语义的获取。CSIA实现图像底层特征向高层语义的跨越,避免了基于内容的语义获取所得到语义的单调性,又提高了用户标注文本中语义信息的可靠性,比单纯基于文本或基于内容的语义提取更加有效。2.研究基于内容的图像语义自动提取技术,提出一种基于对象轮廓形状的特征描述子,采用多粒度的策略,即尺度空间方向梯度直方图(Scale Space Histogram of Oriented Gradient, SSHOG),在多尺度上描述对象,并应用于图像中对象语义的自动获取。方向梯度直方图是对象检测领域最有效的特征描述子,但是该描述子只在一个固定的尺度上获取图像中对象的语义特征,使得图像中对象的识别率不高。对象的特征具有多尺度性质,识别某些部位需要利用细粒度的细节特征,而另外一些部位可能需要粗粒度的整体特征,还有一些部位需要粗粒度和细粒度的特征结合使用。采用SSHOG描述子,在行人检测基准测试数据集INRIA Person Dataset上,与目前应用最广泛的HOG描述子,进行实验比较,结果表明,图像中对象的识别准确率得到了提高3.研究图像相似度度量在图像检索中的应用,提出了一种新的Spatiogram距离度量,应用于图像底层特征到高层语义的映射。在系统分析了经典的图像颜色和空间特征的基础上,利用李群论中的理论工具,将空间直方图李群相似度度量(Lie Group Spatiogram Similarity, LGSS)用于图像语义的获取。空间直方图作为颜色直方图的扩展,能够有效的弥补颜色直方图丢失了图像空间分布信息的不足。但是由于空间直方图不再是简单的向量,而是高斯分布(即高斯函数)组成的集合,度量其相似度比较困难。因为相似度概念本身是与度量对象所在的拓扑空间(如欧几里德空间、流形等)结构相关的,即相似度本身是度量对象在其空间上与其它对象的距离远近,所以本文根据高斯函数空间的李群结构特性,采用基于李群元素间测地线距离的空间直方图相似度度量对图像进行比较。在图像检索基准测试数据集Corel dataset上的实验结果表明,利用基于LGSS的检索结果要优于采用其它基于空间直方图相似度度量的检索方法。4.研究图像融合与清理的方法,提出一种对图像的文本语义和内容语义进行融合的方法。该方法综合利用图像内容和图像的标注文本进行语义融合,能有效的获取图像中与用户检索目的一致的语义信息。一方面,基于图像内容进行对象语义自动提取(即自动标注),作为用户标注信息的补充;另一方面,根据图像内容的相似度度量对用户标注信息进行清理,过滤错误的标注信息并根据相似图像的标注相关性自动补充标注。最终提取的语义信息中既利用了用户标注语义的丰富性,又避免了用户标注信息中包含有大量噪声的缺陷。在多模图像检索标准测试数据集NUS-WIDE dataset上的实验结果表明,自动语义提取和基于内容相似性的用户标注信息清理均能提高最终的检索性能。本研究根据互联网图像数据库的新特点,综合利用图像视觉内容和文本两种模态的数据各自的优点,弥补各自的不足,进行图像语义信息提取,为图像检索系统服务,符合技术发展的趋势,对图像检索技术的发展具有重要的价值。
其他文献
社会主义市场经济条件下的按生产要素分配是指投入到生产过程中的各种要素,可以依据其产权参与价值分配,依据其贡献率的大小获得相应收益.按生产要素分配的理论基础是劳动价
症状性颅内动脉粥样硬化性狭窄的科学评估影响临床与科研的方方面面,如危险分层、临床决策及研究分组等。除传统的形态学评估外,随着精准医学的兴起,使用磁共振方法进行个体
在生物防治的应用中,利用天敌昆虫防治害虫是指一种很重要的手段,蠋蝽是极具开发潜力的捕食性天敌昆虫,可控制多种鳞翅目、鞘翅目、膜翅目和半翅目农林业害虫。然而在实践应用中,蠋蝽的扩繁一直是影响其发挥作用的重要因素。为了进一步了解蠋蝽的营养机制,本研究对蠋蝽进行了基因组、唾液腺转录组测序,并基于组学数据对其脂肪酸代谢进行了一系列分子生物学实验,为揭示蠋蝽的营养研究提供了科学依据和理论基础。本研究对蠋蝽进
本文从一则《最高人民法院公报》上刊登的关于股东优先认购权纠纷的案例入手,围绕案例的争议焦点展开论述。本文正文包括四个部分,合计一万六千字左右,具体内容如下:第一部分是引
目的探讨原发性甲状旁腺功能亢进术后出现低钙血症及其症状的相关因素。方法收集2009年1月至2015年3月北京协和医院行手术治疗的原发性甲状旁腺功能亢进病人临床资料,分析与