论文部分内容阅读
跨模态检索(Cross-Modal Retrieval)旨在为不同模态的多媒体数据(如图像,文本,视频等)提供相互检索的能力。相较于传统的单模态数据检索(如图像检索图像),跨模态检索能够提供更加多样化的检索体验,如使用视频数据检索相关的文本描述等。但是由于不同的多媒体数据往往具有不同的数据分布,因此无法直接利用传统相似性度量手段对它们之间的相似度进行度量。当前主流的解决方案是先将不同的多模态数据映射到一个公共的子空间中,然后依据它们在该公共子空间内的相似度作为度量依据检索相似的样本。为了进一步减少大规模数据在进行跨模态检索时所需的存储空间和计算复杂度,基于哈希学习的跨模态检索算法在近年来得到了广泛的关注,本文主要探讨如何设计出更加有效的跨模态哈希算法。首先,本文提出了基于图卷积神经网络的半监督跨模态哈希算法(SGCH)。由于现有的跨模态哈希方法绝大多数是有监督的,需要人为对训练数据进行标注,因此当数据规模较大时人力资源的消耗也是巨大的。而半监督跨模态哈希方法通过利用少量有标注样本和大量无标注数据进行训练,能够取得接近于有监督方法的性能,因此具有更好的实用性。SGCH首先通过图建模(Graph Modeling)的方式将不同模态的数据构建为图结构,然后使用图卷积操作来挖掘模态内(IntraModality)的高阶相似度关系,与此同时将语义信息从有标注样本中传递到无标注数据中。随后,SGCH使用共享参数的孪生网络将图卷积过程中学习得到的多模态特征映射到汉明空间,得到最终用于检索的哈希编码。为了进一步消除多模态数据之间的语义鸿沟,SGCH还引入了对抗损失函数来拉近不同模态数据所在汉明空间的距离。在真实数据集NUS-WIDE-10K以及Wiki上的对比实验结果验证了所提出的基于图卷积网络的半监督跨模态哈希方法的有效性。其次,考虑到图的拓扑结构对于图卷积的效果具有至关重要的影响,因此本文进一步提出了基于自适应图卷积网络的半监督跨模态哈希算法(ASGCH)。该方法利用可扩展性更高的Graph Sage算法为不同模态的数据提取图卷积特征,并且根据提取到的图卷积特征对无标签样本的语义类别进行预测,然后选出可信度高的预测结果加入到有标签样本集中,并依据预测的标签对图模型进行更新。随着训练的不断进行,图的拓扑结构会越来越准确,也使得产生的哈希编码更加有效。通过在MIRFLICKR-25K,NUS-WIDE-10K以及Wiki数据集上的对比实验发现,本文提出的方法能够仅仅使用少量有标注数据训练的同时带来比主流跨模态哈希方法更好的检索效果。