论文部分内容阅读
随着互联网2.0技术的快速发展,一系列围绕着多媒体内容的研究不停地涌现出来。身处于这样一个多媒体的时代,人们也在日常生活中不停创造并分享传播着图像和视频这些常见的多媒体素材。而在这一过程中,用户并不局限于仅仅分享传播图像视频这些单一视觉信息,很多时候还会加上他们对图像视频内容在语义层面的理解,比如标签或者描述这些文本信息。这样就为多媒体领域衍生出了很多跨模态间的应用。具体而言,这其中不仅包含有从文本出发查询相关图像的多媒体检索技术,也包含有从视频素材直接到文本的视频描述生成,更有一些大胆的跨模态应用比如从文本出发,自动生成相关的视频内容。这些跨模态应用的本质都是在视觉信息和文本信息这两个不同模态间的互相转换。目前的技术手段大部分都依赖于多模态学习与深度学习的现有框架来简单实现不同模态间的转换,却忽视了不同模态间本质存在的高层语义联系。而在模态转换的过程中强调这一高层语义信息对深度理解视觉内容以及最终提高模态间转换质量而言都是至关重要的。针对这一问题,本论文从视觉信息和文本信息间本质存在的高层语义信息出发,研究如何利用高层语义信息来帮助并提升多媒体检索(文本到图像)、视频描述生成(视频到文本)、视频内容生成(文本到视频)这些跨模态的应用。本论文包含以下几个创新点:(1)论文提出一种基于高层语义的多媒体检索算法,可利用搜索引擎中用户点击数据挖掘出查询关键词和图像的高层语义关系,并以此构建出一个语义子空间来直接度量这两种不同模态间的语义相关性,实现查询关键词到图像转换的多媒体检索。在该方法中语义子空间的构建主要遵循两个原则,即最小化查询关键词与对应的点击过的图像在语义子空间中的距离,并同时保留每个模态在自己原本空间的固有关系结构来。通过在一个大规模的用户点击图像检索数据集上的实验,本文证明了该算法相比于传统支持向量机的排序模型在语义相关性的评测标准上提高了 4.0%。(2)论文提出一种基于隐式高层语义的视频描述生成算法,自动生成语法连贯而且语义和视频内容一致的描述语句。该方法在利用长短时记忆神经网络对词和词之间的语法连贯性建模的同时,还设计了一个全新的视觉语义嵌入式模块来约束整个语句和视频内容的隐式语义相关性。这其中长短时记忆神经网络与视觉语义嵌入式模块是共同训练与优化的。本文在三个视频描述生成数据集上进行了大量实验并证明了所提出方法的有效性,其中所提出方法在YouTube2Text数据集上相比于基于长短时记忆神经网络的方法在METEOR指标上提高了 4.7%。(3)除了利用视频和描述语句间隐含的语义相关性,论文还提出一种基于显式高层语义的视频描述生成算法,进一步提高从视频内容到描述语句的转换质量。该方法首先挖掘出视频中包含的显式高层语义信息(也就是语义属性),然后将这一高层语义信息动态地融入到基于循环神经网络的传统视频描述生成模型中,从而大大提高了生成的视频描述语句与视频内容的语义相关性。同样地,本论文在三个视频描述生成数据集上验证了基于显式高层语义的视频描述生成模型的有效性。其中在MSVD数据集上,该方法取得了迄今为止公开的最高性能:52.8%的 BLEU@4 与 74.0%的 CIDEr-D。(4)论文提出了一种基于高层语义的视频内容生成算法,实现了从描述语句到视频内容的直接转换。该算法以生成式对抗网络(GANs)为基础,在视频内容生成过程中同时考虑了语义一致性和时序连贯性,从而使得生成视频的帧时序上连贯而且语义也和描述语句一致。实验上则通过两个合成构造的视频数据集与一个真实视频数据集证明了该算法的有效性。