论文部分内容阅读
随着图像、文本、声音、视频等多模态网络数据的快速增长,人们对多样化的检索需求日益强烈,其中的跨模态检索受到广泛关注。然而,不同模态的数据存在异构性差异,寻找异构数据的内容相似性仍然具有挑战性;同时,大数据时代背景下,网络数据的数据量极大且特征维度较高,在这样的条件下精准、高效地检索数据是一个不小的难题。本文利用深度学习和哈希学习方法,对跨模态检索的建模和匹配进行研究,主要研究内容如下:(1)深度特征提取与表达。不同模态数据存在异构性差异,难以直接通过特征度量其相似性;人类和计算机对文本和图像的理解在高层语义层面是不同的,存在语义鸿沟问题。研究提出了基于卷积神经网络的图像特征提取方法和基于LSTM_CNN模型的文本特征提取方法,得到更具语义信息的特征表示。(2)提出一种基于深度关联分析的跨模态检索模型。针对不同模态描述同一语义时包含的信息量不等,难以提取局部细粒度相关特征的问题,提出基于深度学习的跨模态协同注意力网络模型。该模型基于深度神经网络提取模态特征,构建更加细粒度的多模态数据的特征表示;借助注意机制捕捉文本与图像间细微的交互作用,构造模态间细粒度的关联关系。(3)提出一种基于哈希学习的跨模态检索匹配方法。针对大规模数据集下,数据存储空间大,检索速度慢的问题,提出一种基于哈希学习的深度监督离散哈希模型。该模型对跨模态检索匹配的效率和质量进行研究,将特征学习和哈希码学习过程集成在一个框架内,同时学习特征表示和哈希函数,学习过程把相似度矩阵作为监督信息,保持模态间和模态内的一致性;通过学习标签的潜在语义矩阵构造哈希码与标签的关联关系,直接从标签学习哈希码既保证了哈希码的质量又提升了跨模态检索匹配时的效率;优化过程保持离散约束,减小量化损失。(4)设计并实现一个跨模态检索系统。系统采用Browser/Server模式实现图像检索文本和文本检索图像两种跨模态检索功能;核心部分利用提出的深度监督离散哈希模型进行跨模态数据的存储和检索,并通过应用演示系统对结果进行可视化展示。