论文部分内容阅读
面对互联网图像搜索的海量、多模态的信息特征,现有图像搜图像、文本搜图像、图文结合搜图像的系统都有不尽如人意之处。为了搜到尽可能多、全面的图像,很有必要研究互联网图像搜索中的多模态融合。互联网图像搜索本质上是一种多模态学习问题。在以往对它们的研究中,涌现出许多算法和思想流派:矢量量化或共生模型、机器翻译模型、相关模型、加入类别信息的结构模型、多标注学习、互补的多模态融合、基于矩阵分解的多模态融合、基于调和场模型的多模态融合、基于对齐学习的多模态融合、多模态联合学习、一致性的多模态学习、大数据驱动的多模态学习。总结其优缺点,我们提出了要构建的多模态学习模型的设计需求。一种用文档-词条关系矩阵传播、叠加两者的相关度矩阵以学习文档语义相似度的模型被用在了多模态相似度矩阵的互相增强上。本文分析了其用在多模态学习上的不同之处,提出了加入模态内高阶相似度增强的多模态融合模型;分析了现有既考虑多数据域互相增强又考虑数据域间相关关系增强的多数据域相似度融合算法,结合多模态相似度融合的加性特点,提出了用模态间对齐去增强模态间相关关系;为了得到多模态之间匹配的相关关系,提出一种以模态间对齐为优化目标的统计模型,并把它和典型相关分析做了类比分析。大量实验用于探究它们在多模态图像搜索应用中的表现和有效性。核矩阵可以描述流形,可以把多个模态的数据投影到相似度空间相互比较。核矩阵代表的马尔可夫场的传播、对齐、流形特征都可以用引入电势概念的电路网络描述。单模态搜索可以表示为有源电路网络,等价于谱聚类。电路网络模型有其希尔伯特空间解释。网页排名、流形排序算法都可以表示为电路网络模型,由此可以反推出有源电路网络的快速迭代算法。建立了基于电路网络的多图融合模型。该模型可以用正则化优化式来表达并进一步扩展。实验验证了用电路网络做多模态融合的有效性和优势。用泊松方程理论上解释了电路网络模型,用非齐次热传导方程解释了电路网络模型的快速迭代算法、模态内高阶相似度增强的合理性;在扩散的多尺度分析基础上,分析了流形上的多尺度空间;借鉴传统信号处理中克服信号截短的缺点的对策,提出了相似度矩阵取行近邻的多分辨率滤波方案;利用偏微分方程方便加边界条件的优势,提出了基于电路网络的多模态融合模型添加模态间对齐增强的方法。总结了本文的技术路线、四方面贡献,并给出了以后的工作展望。