论文部分内容阅读
当前成像技术的快速发展,使数码相机、可拍照手机等设备日益普及,各种各样的图像数量飞速增长。同时,互联网的诞生与发展极大地促进了人们之间的信息交流,也使图像传播变得更加方便快捷。越来越丰富的图像资源使用户难以在浩如烟海的数据中找到其真正需要的信息,从而,各种各样的图像检索技术得到了广泛的关注。现有的图像检索主要依赖于图像对应的标注信息,随着图像数量的快速增加,手工进行图像标注方法由于费用太过昂贵,已经不能满足人们的需要。所以,人们寻找能够自动生成图像标注的方法,近些年来已成为了研究热点。目前研究中遇到的问题主要是“语义鸿沟”问题以及巨大的图像数量带来的效率问题等。同时,基于图像视觉内容的检索也在许多领域具有非常重要的作用,如指纹检索、医学图像检索等等。而且,自动图像标注算法中也经常需要进行基于图像内容的检索。这类检索的一个关键问题是如何快速、准确地寻找到与查询图像相似或近似的图像集合。由于图像具有巨大的数据量,一般表示为高维空间中的矢量,所以其索引和检索变得十分困难。当需要处理的图像数目达到上百万甚至上亿张时,快速搜索近似图像将成为非常具有挑战性的任务。本文主要针对图像检索中的自动图像标注以及快速搜索相似图像等方面进行研究,主要研究内容和创新之处为:1、对自动图像标注算法进行了介绍,重点讨论了基于相关模型、生成式模型、传播式模型等几类得到广泛研究的标注方法。传统的图像标注算法主要研究图像与词汇之间的关系,而近期受到普遍关注的一类方法是利用词汇之间存在的统计和语义关系对已有的标注进行改善,我们也对这方面的代表性工作进行了介绍。2、本文详细分析了图像自动标注问题中的目标与涉及到的可用信息,提出了一种统一的自动图像标注的模型框架,将传统的自动图像标注问题扩展到包括自动标注与标注改善两个子问题。该框架可以清晰地解释现有的多种自动标注方法,帮助人们更好地理解自动图像标注问题。3、基于本文所提框架,我们提出了若干种有效的图像标注改进算法,分别改进了相应的图像关系计算方法、词汇间关系计算以及学习算法等部分。实验表明,本文提出的算法取得了明显效果,也说明了所提统一自动标注框架的有效性。4、基于内容的图像检索其核心问题是相似图像的检索问题,同时,在自动图像标注中经常需要寻找与待标注图像相似的图像集合。所以,我们探讨了快速搜索相似图像的算法。为了简化问题,我们首先讨论了如何在大规模图像库中快速进行重复图像的检测。针对此问题,我们提出了一种高效的图像表示和索引方法,该方法计算复杂度低,准确度高,所需存储量小,具有很好的检测性能。5、我们将该重复图像检测的方法进一步扩展到相似图像的搜索中,联合利用多种图像特征的表示和索引,通过机器学习的方法以最佳方式对这些信息进行组合,实现了对大规模图像集快速寻找相似图像的功能。