论文部分内容阅读
随着互联网的发展和数字技术的进步,网络图像资源与日剧增。如何对海量的图像资源进行高效的组织、管理和检索,成为信息检索领域的一大难题。计算机领域的学者们尝试通过图像标注的方法解决此类问题。针对图像级标注方法越来越难以解决互联网图像内容的高复杂性问题,本文在图像已经含有图像级层次的标签的前提下,研究如何在图像区域和标签之间建立匹配联系以实现标签定位,以及如何增添具有描述性的属性标签。这样可以更加全面、完整地描述图像内容,从而更好地利用图像标注解决图像检索问题。本文的主要工作和创新点如下:(1)概述了现有的图像标注方法,包括基于分类的图像标注、基于概率模型的图像标注和基于互联网数据集的图像标注。阐述了社会化媒体下的社会性标签处理的相关工作以及图像的底层视觉特征的提取过程。同时对基于多样性密度的图像标注方法进行了介绍。(2)提出了基于区域语义多样性密度的图像标注框架以获得全面的图像标签信息。首先,为了衡量图像的每个标签与图像各区域之间的相关程度,以得到标签的相关语义区域,本文提出了多样性密度标签定位方法,包括基于距离相似度的特征多样性密度方法DDSIM、基于区域位置的空间关系多样性密度方法DDL和综合多样性密度方法DDCom。这三种算法充分利用了区域间的视觉特征差异和空间结构差异,同时考虑负相关示例的惩罚作用,可以较准确的得到标签在图像中的相关区域。在此之后,通过区域属性语义标签对相关区域进行分析学习,得到对区域具有描述性的属性标签。(3)提出基于内容和语义的图像检索方法,该方法不仅使用图像的原始标签和属性标签作为图像的语义描述,还结合图像的底层视觉特征作为图像的内容描述,从而更好的利用图像的语义及内容信息,实现精准的图像检索。在NUS-WIDE和MSRC图像集上进行了大量实验。实验结果表明,本文图像标注框架可以较精确地得到标签的相关语义区域和属性标签,能够有效解决标签定位问题。同时,基于内容和语义的图像检索得到的检索结果比较符合用户的查询需求,具有较高的准确率和平均精度。