论文部分内容阅读
随着计算机网络和多媒体信息技术的飞速发展,在生活中人们可以接触并获取到的图像数据也在不断增长。而移动互联网技术的大规模应用更是让人们可以随时随地上传并在网络上分享自己获取到的图像信息。由于图像数据本身的特性,导致图像数据不能像文本数据一样被有效分析和管理,从而使得图像数据在信息检索中不能被有效利用,而传统的通过人工对图像进行标注的方式也逐渐与时代的发展脱节。同时,由于人工或众包的方式对图像进行标注存在花费巨大,时间成本高,且根据个人理解不同可能导致对图像的标注可能产生分歧等多种缺点。除此以外,文本存在不同语言,而图像是跨越语言的,因此,直接对图像进行标注可以有效解决不同语言进行标注的难题。否则,用户将难以通过直接检索的方法获取到自己所需要的图像数据。在这种情况下,如何通过计算机实现对图像数据有效的自动化标注,以便后期进行分析、管理和检索图像数据逐渐成为近年来研究的热点问题。图像标注是进行图像检索中的一个重要环节,这个环节融合了计算机视觉、模式识别、图像处理等多种新技术。本文针对如何利用计算机对图像数据进行自动标注的问题,尝试利用从图片中获取到的图像特征描述符来描述图片内容,进行了图像特征学习的深入研究。由于单个图像特征可能不能完整全面的描述图像的内容,因此本文使用了多种图像特征描述符,将多种图像特征结合起来进行综合考虑,得到利用图像多种特征进行图像自动标注的初步成果。本文的主要研究内容如下:(1)本文分析了对图像进行自动标注的整体流程,并对测试图像提取多种特征而不是单一特征进行研究。综合利用Colorhist特征、GIST特征、SIFT特征等不同的图像特征描述符对图像内容的不同方面进行描述,打破使用单一特征对进行内容描述的局限。(2)同时利用机器学习中的多模态学习方法来训练,充分利用不同图像特征与对应图像之间的联系,建立起图像特征向量与图像内容的关系。由于同样的概念在不同图片中总存在一些相似或一致的特征,因此将单独的图像特征作为不同的模态,每次对一个概念进行训练,便可以得到概念对应的模态特征,从而得到对应概念的分类器。(3)由于在高维数的情况下,使用线性和非线性映射得到的结果差别不大,而且使用线性分类或线性回归往往也能取得不错的结果,同时也能够有较快的速度。因此尝试使用LIBLINEAR线性分类器来对图像进行分类并实现标注。(4)使用Caffe来提取VGG网络倒数第二层作为图像特征,使用多层感知器来训练图像同要进行标注句子的关系,最终实现了图像和句子的双向标注及检索,并完成一个句子和图像的双向检索系统。