互联网环境下大规模图像的内容分析、检索和自动标注的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：longlaotest1

【摘要】

：

随着互联网和数字摄影设备的普及和发展,互联网上的图像数量飞速增长。一方面,互联网上的海量图像吸引了越来越多的用户;另一方面,越来越丰富的图像资源使用户难以在浩如烟海

【作者】

：

王长虎

【出处】

：

中国科学技术大学

【发表日期】

：

2009年期

【关键词】

：

图像检索图像标注图像标注改善语义鸿沟稀疏编码距离度量学习多实例学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网和数字摄影设备的普及和发展,互联网上的图像数量飞速增长。一方面,互联网上的海量图像吸引了越来越多的用户;另一方面,越来越丰富的图像资源使用户难以在浩如烟海的数据中找到其真正需要的信息。这使得快速、有效的图像检索技术成为商业界和学术界的一个重要研究方向。当前,互联网图像检索主要分成两大类:基于文本的图像检索(text-basedimage retrieval,简称TBIR),和基于内容的图像检索(content-based imageretrieval,简称CBIR)。TBIR在商业图像搜索引擎中被广泛使用。在TBIR系统中,互联网图像的文本信息用来索引和搜索图像。因此,图像文本标注的质量成为TBIR中的一个重要的问题。CBIR是学术界中一个非常流行的方向。在CBIR系统中,图像的视觉内容被用来索引。它面临的最主要的困难是语义鸿沟问题,即图像的低层内容特征(如颜色),不能有效的描述高层语义(如“狗”)。在本文中,我们尝试充分利用互联网图像丰富的文本信息和视觉信息,来解决上面提到的几个问题。我们对自动图像标注、图像标注改善、减小互联网图像检索中的语义鸿沟、基于对象的图像检索等问题进行了深入的研究。另外,为了更好地处理和利用互联网上的海量数据,更有效地帮助用户的在线检索,我们在设计相关算法和实现检索系统的时候,还特别地注意了其处理大规模图像的能力以及实时性。本文主要成果和创新之处包括以下几个方面:1.讨论并分析了自动图像标注问题,提出了一个多标记稀疏编码的框架来进行特征提取和分类,并把它应用到自动图像标注中。我们认为具有部分重叠标记的两张图像之间的语义相似度应该以一种重构的方式而不是一对一的方式来度量。因此,在这个框架中,图像标记向量之间的语义相似度,以及图像特征向量之间的语义相似度,都基于一对多的l~1稀疏重构/编码来度量。2.讨论并分析了大规模的自动图像标注问题,并提出了一个基于搜索的图像标注框架。在这个框架下,我们给用户提供了一个在线图像标注服务,可以对用户提交的任意图像进行实时的标注。我们从互联网上收集了一个大规模的图像库,并把它用做训练集来标注任意一张图像。快速检索技术的应用和大规模图像库的使用保证了我们提出的基于搜索的图像标注框架处理大规模图像的能力及实时性。3.讨论并分析了图像标注改善问题。我们把图像标注改善问题表述成一个马尔可夫过程,并在这个框架下解释了已有的图像标注改善工作。针对已有工作的问题,我们提出了一个基于内容的图像标注改善算法。马尔可夫过程表示的有效性,以及待标注图像与训练集中图像的内容信息的充分利用,使得我们提出的算法很大程度上改善了已有算法中存在的若干问题。4.讨论并分析了互联网上基于内容的图像检索中的语义鸿沟问题,并提出了一个基于排序的距离度量学习算法。通过互联网图像丰富的文本信息的引导,我们试图在视觉空间中学出一个新的距离度量,使得给定一张查询图像,基于这个新的距离度量,我们可以在图像库中检索到与查询图像语义上更相关的图像。基于这个新的距离度量学习算法,我们提出了一个大规模的基于内容的图像检索(CBIR)框架,并在2.4 million规模的互联网图像库上实现了一个实时的CBIR检索系统。5.讨论并分析了用多实例半监督学习(MISSL)算法来解决基于对象的图像检索问题。我们针对MISSL问题提出了一个新的正则化框架。基于这个框架,我们提出了一个基于图的多实例学习(GMIL)算法来解决MISSL问题。同样,在这个框架下,GMIL可以分别退化成一个新的标准多实例算法(GMIL-M)和一个标准半监督学习算法(GMIL-S)。我们从理论上证明了GMIL-S算法具有闭式解,以及GMIL和GMIL-M的迭代解的收敛性。我们用GMIL算法来解决基于对象的图像检索问题,实验结果验证了GMIL算法的有效性。

其他文献

老太古,慢玩法

未来房地产的价值在于“城市复兴”,核心竞争力是运营内容。6年前,隋颂伟准备就任广州太古汇总经理的时候,有点犹豫,因为他觉得,从广州到香港尖沙咀,只需要两个小时车程。在

期刊

玩法核心竞争力奢侈品市场城市复兴房地产总经理广州价格

在项目施工成本内部控制中风险预警系统的应用

传统风险预警系统评测方式基于大量统计数据，需要消耗大量的资源。为了尽快识别及应对风险，构建完善的风险预警系统，进行构建稳定的风险预警系统具有重要的意义。本文主要通过分

期刊

施工成本风险预警内部控制

基于多尺度分解的多源图像融合算法研究

本文主要利用具有多尺度分解特性的传统小波变换、Curvelet变换和非下采样Contourlet变换对多源图像像素级融合进行系统的深入的研究。通过大量的仿真实验得出一系列的重要结

学位

图像融合多尺度分解Curvelet变换NSCT2DPCA

LNG罐内泵的特点及应用浅析

LNG罐内泵在LNG接收站的生产运行中的主要作用是将罐内LNG输送至罐外低压管汇,以继续完成下一步的重组分回收、冷能利用、加压、气化、计量、外输等操作。本文以山东LNG接收

期刊

LNG罐内泵工艺技术

支持面向方面SA设计的MDSoC建模方法研究

软件体系结构设计、演化和重用过程中存在着大量的关注点,它们涉及到问题域和解空间的众多问题,覆盖了诸多涉众的要求,并且彼此之间相互制约,关系复杂。常规的体系结构设计方

学位

关注点多维分离面向方面软件体系结构映射规则时段时序逻辑

面向高职学生的《计算机网络技术》实验项目设计——以广西现代职业技术学院为例

根据高职院校《计算机网络技术》实验教学大纲要求并结合高职学生特点，设计面向高职学生的《计算机网络技术》实验项目，切实提高学生的实践动手能力和职业素养。

期刊

高职学生网络技术实验项目

浅谈漠阳江特大桥设计方案

本文介绍了漠阳江特大桥设计方案，从设计原则和技术标准出发，参照通航论证单位批复，确定了桥跨的长度与桥型的布置。然后深入到细部构造设计，详细论述了连续刚构桥悬臂施工分块设

期刊

漠阳江特大桥大跨径连续钢构桥设计方案

互联网环境下大规模图像的内容分析、检索和自动标注的研究

其他学术论文