论文部分内容阅读
随着网络信息技术的发展,全球已经迈入了多媒体大数据时代。数据信息通常关联图像、文本、视频、音频等多种模态形式,多种模态数据分别以不同的展现形式刻画同一事物,表达相同的语义信息。跨模态数据间丰富的互补信息蕴藏着较大的经济价值,给社会发展带来契机。由于跨模态数据处在异构高维空间,且不同模态之间存在相关性,因此有效地学习跨模态数据潜在的低维共享空间对提升信息搜索精度非常重要。本文以跨模态数据为研究对象,结合哈希技术,设计有关跨模态哈希方法并研究其在跨模态检索、图像检索、文本检索和多媒体检索中的应用。本文主要研究内容概括如下:一、提出了基于矩阵分解的跨模态监督哈希模型。为了提升模型的判别性,我们利用已知的标签信息去学习类别属性信息,使得学习到的哈希特征保留了类别的属性信息。采用非线性的核映射保持了各模态内部样本间的相似性结构,有利于捕捉样本的非线性结构信息。提出的模型联合执行了分类器学习、子空间学习和标签一致性矩阵分解去学习判别性的统一哈希特征。二、提出了基于多种视图特征的跨模态监督哈希模型。鉴于单个视图的特征表示能力有限,信息捕捉不充分导致下游任务可利用的判别性信息不足,从而造成模型性能的提升受到限制。为了更好地学习紧凑的哈希编码,提出了多视图离散哈希模型,利用多种视图特征去表征跨模态数据,丰富了特征描述信息。在多种搜索任务上的大量实验结果表明多视图特征能大幅度提升检索性能。三、提出了基于Hadamard矩阵的跨模态融合哈希模型。传统的跨模态融合哈希为了提升模型的性能引入了较多的超参数,选择最佳超参数是比较费时费力的。为了解决这个问题我们基于Hadamard矩阵设计了一种新的线上跨模态融合哈希方法,该方法简单有效,涉及很少的超参数,并在哈希学习中保持了较好的判别性。在线上搜索过程中以自适应方式捕捉跨模态数据的动态变化信息。实验结果表明该方法在多媒体检索应用中具有较高的准确性和效率。由于该方法对超参不是特别敏感,因此能够被非常灵活的应用。四、提出了基于标签传播的跨模态半配对哈希模型。大多数现有的跨模态方法假定跨模态数据是完全对齐成对的,然而在现实中完全对齐的数据并不普遍,同时考虑有限的类别标记数据,提出了一种半配对半监督的哈希模型。该方法基于锚点样本构造跨模态相似度图用于标签传播,为未标记类别的数据生成伪标签,结合了特征学习和分类器学习来学习哈希。在半配对半监督和全配对半监督设置下的实验结果验证了该方法在跨模态检索任务中的有效性。五、提出了基于多模态图嵌入的跨模态无监督哈希模型。目前大部分无监督的跨模态哈希在学习哈希过程中没有同时考虑特征学习和跨模态数据的几何结构保持机制。提出的方法利用l2,1范数约束项学习紧凑哈希特征,视觉空间中的局部线性邻域结构和文本空间的语义关联直接被保持在哈希编码中。在标准数据集上的实验结果表明联合图嵌入和特征学习的无监督哈希在性能上有明显的提升。综上所述,本文在多种跨模态数据场景中提出了五种跨模态哈希方法,充分利用跨模态数据之间的互补性,语义关联和几何结构特性,提升模型在跨模态搜索、图像搜索、文本搜索和多媒体搜索应用中的准确性和效率。大量的实验结果表明所提方法相比已有的相关方法具有更好的性能和优越性。