【摘 要】
:
通常,大多数现有的自动摘要方法研究都单独关注文本领域或图像领域。随着互联网上多媒体数据的快速增长,多模态摘要逐渐引起了广泛的关注。现有实验已证明,与仅含文本的摘要相比,多模态摘要可以通过在视觉模态中使用图像特征信息来提高所生成摘要的质量。不仅如此,多模态输出还可以显著提高用户对摘要信息的满意度。近年来,研究人员开始研究多模态新闻摘要产生多模态输出的任务,这可以称为多模态摘要多模态输出(Multim
论文部分内容阅读
通常,大多数现有的自动摘要方法研究都单独关注文本领域或图像领域。随着互联网上多媒体数据的快速增长,多模态摘要逐渐引起了广泛的关注。现有实验已证明,与仅含文本的摘要相比,多模态摘要可以通过在视觉模态中使用图像特征信息来提高所生成摘要的质量。不仅如此,多模态输出还可以显著提高用户对摘要信息的满意度。近年来,研究人员开始研究多模态新闻摘要产生多模态输出的任务,这可以称为多模态摘要多模态输出(Multimodal Summarization with Multimodal Output,MSMO),中科院研究者们针对这一任务整理和开放了 MSMO数据集。目前最新的研究成果是基于指针生成器网络,通过引入图像注意力以及多模态注意力机制,利用数据增强和引入图像损失的方法,在MSMO数据集上达到了当前的最好效果。不同于之前使用的单一规则进行数据增强的方法,本文提出了一种基于统计模型的数据增强方法,综合考量文本与图像的语义相关性以及图像重要性等多个特征,对多模态摘要多模态输出数据集的训练数据中的图像数据进行自动标注。本文在实验中发现图像位置信息在图像摘要任务中是重要特征,并证明了该数据增强方法的有效性。本文提出了一种新的多模态摘要多模态输出模型框架,该模型基于文本的序列到序列(Sequence to Sequence,下文称之为Seq2Seq)框架,对其进行了解耦,设计出一种基于双流注意力机制的网络架构,在编码器和解码器之间加入了多模态交互神经网络层,实现了图像-文本领域信息的融合;同时该模型架构具有很高的灵活性,可以继承使用其他文本Seq2Seq模型的结构和参数,例如预训练语言模型,并支持不同的图像编码器以及解码方法。本文在Seq2Seq框架的基础上融合了当前最新的生成式预训练语言模型和图像预训练模型进行实验,在文本摘要评测指标ROUGE以及图像精度指标上达到了领先的效果。
其他文献
随着移动互联网的蓬勃发展,社交网络逐渐占据了人们生活中至关重要的组成部分。如今,以微博为代表的社交网络平台汇聚了社会上各种信息。用户在微博等社交网络平台上爆料事件、传播消息、分享经验。以微博为代表的社交网络影响着每个人的日常生活,用户在网络上分享兴趣爱好、生活经历,产生了讨论街头时事、舆情热点等一系列的行为方式。以突发话题检测与追踪、话题关注度预测等技术手段为基础的突发话题查询与可视化系统在网络舆
近年来,量子密钥分发作为量子信息科学的重要分支,以其建立在量子力学和信息论框架下的无条件安全性特点,成为国内外热门研究内容之一。随着量子密钥分发技术的不断深入,承载量子密钥的单芯光纤中的信道容量问题日益突出,空分复用技术的引用为量子密钥分发光网络的发展提供了新的思路。多芯光纤技术以其设计原理简单,成本低等特点成为空分复用中应用比较广泛的技术之一。在多芯光纤网络中,芯间串扰等噪声会给信号的传输带来一
触觉传感器是最重要、最复杂的传感器,它是智能系统的基础和核心。近些年来,许多研究者都在对触觉传感器的压力感知功能进行研究,也在尝试利用各种传感原理来开发出结构小、灵敏度高、稳定性好、价格低的触觉传感器。目前,有许多关于电类传感器的研究,但它们本身存在一些明显的缺陷,如易受电磁干扰、线路连接较繁琐和零点漂移等,而且在辐射、高低温等恶劣环境中,传统的电传感器往往难以正常工作。不同于电类传感器,光学触觉
随着信息社会的智能化趋向,大量的移动终端、自动化设备接入互联网,对信道容量的需求与日俱增,如何最大程度利用有限频段是无线通信技术面临的重大挑战,亟需新的复用技术。而携带有轨道角动量(orbital angular momentum)的涡旋电磁波则在复用技术上蕴藏着巨大潜力,有望解决当今频谱资源紧缺的难题。如何生成涡旋电磁波成为波束复用的前提,因此轨道角动量阵列天线的设计成为该研究领域的热点。本文以
紫外光通信具有频谱资源丰富、背景噪声低等优势,应用前景和发展空间十分广阔,但大气散射会带来脉冲展宽的问题,严重制约了紫外系统的传输距离和通信速率。信道编码是一种提升系统可靠性的有效手段,其中极化码凭借能够达到信道容量极限和编译码复杂度低的特点,在信道编码领域脱颖而出。因此本文就极化码在紫外光通信中的应用展开研究,旨在降低误码率,提高通信质量,为构建高可靠高速率的紫外通信系统提供新思路,主要工作内容
无人机的广泛应用严重威胁着城市的低空安全,管理者对非法无人机的监测和定位需求日益迫切。外辐射源雷达定位系统通过处理来自非协作机会辐射源(外辐射源)的目标反射信号来进行定位,由于其隐蔽性强、抗干扰能力强等优点倍受各国关注。然而,如何有效地利用更为稳定、易获取的外辐射源信号,提高目标定位精度,一直是国内外研究的难题。本文对此进行了相关的探索和研究,主要的工作如下:1.本文提出了一种基于LTE(Long
在无线通信系统中,接收端需要利用同步参数完成对接收信号的解调以及对有用信息的提取,同步算法是获取同步参数的关键,算法的性能直接决定了通信质量。特别是在非协作通信场景下,接收端需要利用盲同步算法,在没有任何先验信息的情况下完成同步参数的估计,这对于截获信号的情报分析具有十分重要的意义。本文针对现有的盲帧同步算法误码容错性较低的问题和现有的盲符号同步算法抗噪性较低的问题,分别提出了基于一阶累积量和误码
随着以物联网(IoT)为代表的新一代信息技术的迅猛发展,网络流量的迅速增长带来了对数据中心传输时延的更高要求,为了应对对应的海量数据流量压力、去除数据瓶颈,边缘计算使得网络机构支撑时延敏感业务与超量计算业务成为可能。但计算架构的改变也为服务的提供带来了新的技术难点:边缘服务器具有一定的服务覆盖范围,移动终端的移动性会导致服务质量的下降甚至服务的中断,为了保证用户移动时的服务连续性,降低服务迁移的时
随着互联网、物联网、大数据等技术的发展,每天都会有海量的数据生成。如何有效的利用这些海量数据中的信息,是目前所面临的科学问题之一。其中最主要的问题集中在,无标签数据容易获得,但是标注难道较大。为解决此问题,半监督学习受到了广泛的关注与应用。由于基于图的半监督学习(Graph-based semi-supervised learning,G-SSL)相比于其它的半监督学习框架拥有良好的数学基础,以及