基于高层语义的跨模态应用研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:a236540335
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网2.0技术的快速发展,一系列围绕着多媒体内容的研究不停地涌现出来。身处于这样一个多媒体的时代,人们也在日常生活中不停创造并分享传播着图像和视频这些常见的多媒体素材。而在这一过程中,用户并不局限于仅仅分享传播图像视频这些单一视觉信息,很多时候还会加上他们对图像视频内容在语义层面的理解,比如标签或者描述这些文本信息。这样就为多媒体领域衍生出了很多跨模态间的应用。具体而言,这其中不仅包含有从文本出发查询相关图像的多媒体检索技术,也包含有从视频素材直接到文本的视频描述生成,更有一些大胆的跨模态应用比如从文本出发,自动生成相关的视频内容。这些跨模态应用的本质都是在视觉信息和文本信息这两个不同模态间的互相转换。目前的技术手段大部分都依赖于多模态学习与深度学习的现有框架来简单实现不同模态间的转换,却忽视了不同模态间本质存在的高层语义联系。而在模态转换的过程中强调这一高层语义信息对深度理解视觉内容以及最终提高模态间转换质量而言都是至关重要的。针对这一问题,本论文从视觉信息和文本信息间本质存在的高层语义信息出发,研究如何利用高层语义信息来帮助并提升多媒体检索(文本到图像)、视频描述生成(视频到文本)、视频内容生成(文本到视频)这些跨模态的应用。本论文包含以下几个创新点:(1)论文提出一种基于高层语义的多媒体检索算法,可利用搜索引擎中用户点击数据挖掘出查询关键词和图像的高层语义关系,并以此构建出一个语义子空间来直接度量这两种不同模态间的语义相关性,实现查询关键词到图像转换的多媒体检索。在该方法中语义子空间的构建主要遵循两个原则,即最小化查询关键词与对应的点击过的图像在语义子空间中的距离,并同时保留每个模态在自己原本空间的固有关系结构来。通过在一个大规模的用户点击图像检索数据集上的实验,本文证明了该算法相比于传统支持向量机的排序模型在语义相关性的评测标准上提高了 4.0%。(2)论文提出一种基于隐式高层语义的视频描述生成算法,自动生成语法连贯而且语义和视频内容一致的描述语句。该方法在利用长短时记忆神经网络对词和词之间的语法连贯性建模的同时,还设计了一个全新的视觉语义嵌入式模块来约束整个语句和视频内容的隐式语义相关性。这其中长短时记忆神经网络与视觉语义嵌入式模块是共同训练与优化的。本文在三个视频描述生成数据集上进行了大量实验并证明了所提出方法的有效性,其中所提出方法在YouTube2Text数据集上相比于基于长短时记忆神经网络的方法在METEOR指标上提高了 4.7%。(3)除了利用视频和描述语句间隐含的语义相关性,论文还提出一种基于显式高层语义的视频描述生成算法,进一步提高从视频内容到描述语句的转换质量。该方法首先挖掘出视频中包含的显式高层语义信息(也就是语义属性),然后将这一高层语义信息动态地融入到基于循环神经网络的传统视频描述生成模型中,从而大大提高了生成的视频描述语句与视频内容的语义相关性。同样地,本论文在三个视频描述生成数据集上验证了基于显式高层语义的视频描述生成模型的有效性。其中在MSVD数据集上,该方法取得了迄今为止公开的最高性能:52.8%的 BLEU@4 与 74.0%的 CIDEr-D。(4)论文提出了一种基于高层语义的视频内容生成算法,实现了从描述语句到视频内容的直接转换。该算法以生成式对抗网络(GANs)为基础,在视频内容生成过程中同时考虑了语义一致性和时序连贯性,从而使得生成视频的帧时序上连贯而且语义也和描述语句一致。实验上则通过两个合成构造的视频数据集与一个真实视频数据集证明了该算法的有效性。
其他文献
云存储作为云计算这一新兴技术的延伸,其出现解决了海量数据存储面临的难题。云存储能够随时随地的为用户提供服务,且其成本低、接口简单、高可扩展性等优点已经广泛应用于各种
盲源分离是信号处理领域中的重要研究问题,传统的盲源分离算法运算量较大,在特定的分离条件下性能下降。来波方向估计是阵列信号处理中的重要问题,已有算法在日益复杂的电磁信号
认知无线传感器网络分簇路由协议能够有效降低拓扑管理的复杂度,APTEEN是无线传感器网络典型分簇协议,既可以周期地发送数据,又可以立即响应突发事件。本文将APTEEN引入到认知无线传感器网络中,并针对该协议组网的认知无线传感器网络存在的问题开展研究工作。APTEEN以多跳方式传输数据时,存在靠近基站的簇头承担较多任务的问题,为了降低靠近基站的簇头承担的任务量,本文提出基于蚁群的非均匀分簇APTEE
学位
物联网技术的不断进步,带来了无线传感器网络的飞速发展。无线传感器网络作为典型的分布式网络,具有自组织、部署灵活、成本低等优势,其最大的弱点是系统的稳定性和可靠性较
图像超分辨率重建是指在不增加成像设备等硬件成本的前提下,对输入的一幅或多幅低分辨图像,利用已有的数字信号处理方法来提高其分辨率,从而重建出分辨率比较高的图像的一种图像
空天目标(aerospace target)即航空和航天目标,它包含大气层中飞行的飞机、飞艇等航空目标和在稠密大气层外,距离地球表面100公里以上宇宙空间中的人造飞行器和空间碎片等航
光纤光栅传感器较之于传统电传感器得到广泛的关注,不仅是因为其抗电磁干扰、耐腐蚀等特性,还有光纤传感能构成大型的传感网络的波分复用的特点,由于研发力度的加强,相应的光
功能磁共振成像(function Magnetic Resonance Imaging, fMRI)是一种重要的脑功能成像技术。通过对采集到的fMRI数据进行独立分量分析(independent component analysis,ICA),
波达方向估计(Direction of Arrival, DO A)是阵列信号处理的重要应用之一,电磁矢量传感器(Electromagnetic Vector Sensor, EMVS)阵列作为一种能够检测电磁信号极化信息的技
随着科技的不断发展,图像作为一种简单而又方便的视觉信息载体,在人类生活中起到了越来越重要的作用。然而,图像在采集、传输和存储的过程中,会由于各种各样的原因,导致图像