论文部分内容阅读
数码相机等有成像功能的数码产品的普及使图像制作方式越来越大众化,制作成本越来越低廉。计算机网络的普及、微博的流行以及Picasa和Flickr等图像共享社区的成熟,使图像数据的传播越来越容易。图像数据的爆炸式增长迫切要求具备与数据增长相适应的图像数据的管理和理解能力。自动图像标注技术是图像管理和理解能力的关键。本文主要围绕图像标注如何缩减语义鸿沟、提升标注效果和提高标注效率开展研究。主要工作及创新如下:(1)提出了改进的CMRM算法,给出了相关模型的通用形式,并从概率论、信息检索以及数据多模态等角度对标注模型给予解释。在分析对比基础之上,指出了相关模型的关键技术以及今后的研究重点。实验结果表明,改进方法的标注效果优于原始CMRM。(2)提出了基于正反例标志性向量的标注方法。为提高标注效果,传统的基于分类的图像标注方法所采用的模型越来越抽象、算法越来越复杂,但效率越来越低。本文提出利用转换媒体的思想,通过为每个文本关键词或语义概念构造视觉特征空间的标志性向量方法,把图像标注问题转换为确定最相似的标志性向量问题。标志性向量由其对应的正例图像与反例图像的特征向量均值差确定。与传统的图像标注方法相比,该方法模型简单,训练和测试的时间开销极低,以词为单位的标注性能高。本文提出的基于正反例的标志性向量方法可以作为一个独立的标注方法使用,更重要的是可以作为今后不断提出的更复杂模型或数据表示方法的对比方法,以便论证采用这些新方法的必要性。(3)提出了基于局部学习的LL_PLSA图像标注方法,该方法模型训练过程中的对象选择、权重分配以及参数设置均通过待标注图像所在的局部特征空间学习得到。现有的PLSA图像标注尽管采用了具有较高语义级别的主题方法描述图像,但图像标注效果不尽人意,落后于很多采用视觉特征描述图像的标注方法。PLSA在学习过程中,由于需要EM算法多次迭代,因此其模型训练代价较大。随着训练图像数据集规模的增长,急剧增加的时空开销使其无法应用于较大规模数据集中。因此,很多学者得出结论,PLSA方法无法应用于中、大规模数据集。本文提出的LL_PLSA方法把参与模型训练的图像由整个训练集图像缩减至特征空间中与待标注图像相关的固定个数的图像(10-20幅图像),相关图像的确定和相似度计算采用了多模信息结合特征空间上下文的方法。由于相关图像个数是常量,参与模型训练的图像与数据集规模无关,因此LL_PLSA是一个可伸缩的模型,可以用于处理大规模数据集。为了提高模型质量、缩减语义鸿沟,我们提出了加权PLSA模型并用于LL_PLSA中。为了增强LL_PLSA的自适应性,每次模型训练的参数(如主题数目等)由参与模型训练图像所在的局部空间信息动态确定。就F1-measure指标而言,LL_PLSA在Corel5k和IAPR TC-12两个数据集的实验中分别比PLSA_WORDS提高了63%和75%。LL_PLSA不仅优于现有的PLSA类模型,也优于当前其他模型的主流标注方法。Corel5k和IAPR TC-12的实验结果表明,LL_PLSA是一个可伸缩的模型,其时间开销几乎不受训练数据集规模的影响。(4)提出了两种图像标注改善方法:基于互信息的标注改善(MIAR)和基于加权互信息的标注改善(WMIAR)。MIAR采用互信息作为相关性度量方法,在标注改善过程中以初始标注词的置信度为次序逐个计算候选词汇与已确认词汇的相关性。MIAR通过剔除相关性小于指定阈值的噪音词汇完成图像标注改善。WMIAR使用加权的互信息度量词汇相关性,在计算相关性时,不再机械地统计词汇的共现频次,而是结合它们所在图像与待标注图像的相似度,并以此相似度作为共现概率的权重。由于综合了全局范围内词词的一般规律和待标注图像的具体视觉信息,因此比较准确地刻画了待标注图像与候选标注词之间的关系。实验结果表明,本文提出的MIAR和WMIAR在初始标注基础之上通过噪音词剔除或候选词重新排序能够进一步改善图像标注效果。