论文部分内容阅读
十九世纪九十年代初,人们开始对多媒体信息检索领域进行探索。其中,基于内容的多媒体信息检索成为了当时该领域上一个新兴的热点课题。同时也成为了计算机视觉领域中一个备受关注的研究方向。在多媒体信息检索领域中主要应用了多种机器学习方法以及人工智能的方法,如统计分析、模式识别、人机交互等,用来解决基于文本关键字的多媒体信息检索中所存在的不足,以及在人工选择上所存在的主观差异性。传统的基于内容的多媒体检索技术主要应用于单一的多媒体类型检索,例如图像检索、文本检索、视频检索、音频检索等,无法满足人们在多模态下的检索要求。这便使人们的研究方向转向了跨模态的多媒体检索,即跨媒体检索。目前,跨媒体检索技术主要有三种方法。第一种是基于融合分析研究的跨媒体检索方法。该方法最初是将不同媒体的特征数据进行融合。常用的融合方法有随机类方法,包括加权平均法、贝叶斯估计法等;以及人工智能类方法包括模糊逻辑、神经网络等。第二种是基于关联挖掘的方法。由于融合分析的研究方法很难在多媒体语义理解过程中完成信息的互补和增强,因此有学者提出了关联挖掘法,用于发现数据内部更深层次的含义。常用的方法有,交叉索引关系、连接关系模型以及多媒体关系图。第三种方法为相关性分析研究。在前两种方法中,仍然存在底层数据向高层语义映射的困难。而同时,有学者指出,多媒体对象间存在着一种内容上的相关性。利用相关性研究方法,不仅跨越了异构媒体底层内容上的差异而且保留了变量之间的相关性。其缺点是,该方法对数据的底层特征过于依赖,如果两组变量间的关系非线性其效果并不明显,并且检索准确率不高。针对已有技术的不足,本文对跨媒体检索的进行了进一步的研究和扩展,并提出:基于CCA和Adaboost的跨模态多媒体检索方法和基于多映射融合的跨模态多媒体检索方法两种方法,并将这两种方法应用于图像和文本之间的跨模态检索中以证明方法的有效性。前者利用CCA方法来刻画图像和文本特征之间的相关性,利用Adaboost方法来进行反馈,反复调整这种相关性,从而更加符合高层的跨媒体语义关系。后者从前者的基础上,提出了两种融合方法。第一种方法利用逻辑回归使得图像和文本底层特征映射到同一空间下,融合相关性映射和语义映射;第二种方法利用权重分配法继续调整图像和文本特征之间的相关性,融合多个相关性映射以达到一个最好的映射状态。本文以两个开放的语料库,中文维基百科和英文维基百科数据集作为实验数据集,分别应用上述两种方法进行文本查询图像和图像查询文本这两种任务。实验结果表明了这两种方法的有效性。