论文部分内容阅读
在现代社会信息化程度不断提高的同时,计算机及各种信息处理设备与技术的发展也日新月益。在这一进程中,人们对数字图像的需求呈现出爆炸式的增长,而如何有效地对数字图像进行检索也因此成为了人们关注的热点。按照人类的认知习惯,根据数字图像所包含的语义内容对其进行语义关键字的标注,从而将对数字图像的检索转化为成熟的文本检索,是对数字图像实现高效检索的必要手段。如何利用计算机自动地识别图像的语义内容并进行标注,是近年来计算机视觉和多媒体研究领域中一个亟待解决的难点。由于数字图像本身存在非结构性、语义复杂性、含糊性等特点使得低层视觉特征和高层语义之间存在着“语义鸿沟"。如何利用计算机技术填平语义鸿沟,具有巨大的挑战性。视觉词袋模型(Bag-of-Visual-Word,BoVW)作为计算机视觉研究领域的通用的建模方法,具有良好的适用性和实现的简洁性、高效性,在图像标注的应用研究中广泛使用并有出色的表现。但由于BoVW模型的基础性问题存在,其距离实际应用还有相当的差距。本文针对视觉单词的量化误差、映射损失等问题进行了研究并提出相应的改进算法,为基于BoVW的图像标注研究提供了有意义的探索。本文的成果和创新之处包括以下几点:1.针对BoVW模型建模图像标注的量化误差与视觉单词含糊性等缺点,提出了一种基于BoVW的视觉单词模糊计权与映射方案FWS(Fuzzy WeightingScheme)。FWS在训练样本集的预聚类基础上,逐聚类训练单类支持向量机OC-SVM并得到视觉单词映射函数。根据样本特征与聚类超球球心的距离函数及聚类超球的空间分布确定视觉单词映射及权重,并以此提高视觉单词的表达力、区别力。基于两个不同图像实验集的实验结果不仅验证了FWS的良好泛化性能,而且图像标注准确性相比TF和VWA分别有从16%到34%和从17%到30%的提高。2.提出了一种基于改进的视觉词袋模型BoVW的图像标注方法--多尺度空间优化视觉词袋模型Msso-BoVW(Multiple scale space optimization Bag-of-Visual-Word)。针对传统BoVW模型对尺度变化较为敏感的问题,Msso-BoVW在图像的内容分析时引入了图像的多尺度特征信息。Msso-BoVW对图像数据进行线性多尺度变换,并依尺度构建多个层次化的视觉词汇表;最终将图像表示为不同尺度的特征直方图。依据各尺度特征的区别力,结合多核学习的方法优化各尺度特征直方图的相应权重,从而获取针对分类的、最具区别力的视觉特征表示。在Caltech256图像实验集和Pascal VOC2009图像集上分别进行了实验,实验结果验证了所提方法的有效性,其标注准确率MAP值比传统BoVW模型分别有从18.7%到33.6%和从19.1%到29.6%的提高。