基于BERT模型的文本摘要方法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:TTjj09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在社交网络时代,数据挖掘在信息检索和自然语言处理方面的迅速发展使得自动文本摘要任务成为必要,如何有效地处理和利用文本资源成为研究热点。文本摘要任务旨在将文本转换为包含关键信息的简短摘要。现如今的自动文本摘要方法主要分为抽取式模型和生成式模型。尽管这些模型已经具有较强的编码能力,但是仍然未能解决长文本依赖和语义不准确的问题。因此,本文做了深入研究旨在进一步解决生成摘要与源文本事实不符的一大问题。主要研究工作如下:(1)研究基于主题嵌入的自动文本摘要方法。该部分研究旨在通过主题建模获得文本的主题编码信息,进而指导文本的生成方向。但是基于词同现的主题建模并不能很好地解决文本中信息与词汇有限的问题。故本文基于神经主题模型,提出一种基于BERT的主题感知文本摘要模型。该方法利用神经主题模型编码的潜在主题嵌入表示与BERT的嵌入表示相匹配,引导主题生成以满足文本语义表征的要求,通过transformer架构以端到端的方式共同探索主题推理和摘要生成,由自注意力机制建模长距离依赖的同时捕捉语义特征。在此基础上,建立的两阶段抽取-生成模型,能够实现信息和优势共享。实验结果取得了高于基线模型的ROUGE得分,表明了主题表示对语义表征的重要性并且证实了该方法的有效性。(2)研究带有知识增强的抽象文本摘要方法。该部分研究内容针对生成摘要存在虚假信息与源文本事实不符的问题,旨在生成既保留原文主题信息,也注重生成事实一致性的文本。故本文提出了一种基于BERT的知识增强文本摘要模型,引入知识图谱获得额外的结构化知识,使用文档编码器和知识图编码器驱动模型在获取上下文特征时和结构化信息相互补充。同时提出子主题概念对段落单独编码以便解码器集成选择文档级知识。此外,在训练阶段利用FCM算法注入评论性语句,加强模型的生成能力。通过自动评估和人工评估,在CNN/Daily Mail和XSum数据集上的实验证明了模型有能力捕捉到原文主题和正确的信息,提高摘要的事实准确性。
其他文献
数字图像数量的急速增长促使各团体组织和个人,将图像存储和计算处理外包给云服务器。而无防御地上传明文图像到云服务器会带来隐私泄露风险,图像加密又会阻碍数据的有效使用。现有的加密图像检索技术使用户承担了大量计算任务,如特征提取、特征加密、索引建立等,因而研究减轻用户负担的检索方案成为了本论文的重点。为此,本论文提出基于局部二值模式(Local Binary Pattern,简称LBP)的加密图像检索方
近年来,三维点云分析在计算机视觉、机器人以及自动驾驶等许多领域得到了广泛关注。传统的点云分析方法通过人为定义的规则或手工设计的特征提取点云的特征表示。这类方法依赖于启发式的先验知识,因此不能很好地处理复杂的点云场景。随着深度学习技术的蓬勃发展,越来越多的研究人员将这一技术应用到点云分析中,并在各种点云分析任务中取得了显著效果。然而,点云具有不规则性、无序性以及稀疏性等特性,这使得如何高效地提取点云
目标跟踪作为计算机视觉领域的研究热点之一,在现在社会中有着广泛的应用。虽然目前已经提出了很多优秀的算法,但是由于跟踪挑战因素与训练样本的制约,目标跟踪算法在有些方面的表现依然不够理想。本文在相关滤波算法的基础上,针对现有跟踪算法中存在的问题,做了以下工作:为了解决目标跟踪算法在面对长期遮挡后无法识别目标的问题,本文在相关滤波算法的基础上,提出一种基于双检测器系统的长期目标跟踪算法。在跟踪过程中,当
随着互联网的不断发展,已由传统意义下的信息发布平台逐渐演变为一个开放的分布式计算基础设施。2002年面向服务的架构(SOA)的提出,使得“服务”成为开放网络环境下资源封装与共享的核心概念。然而,随着跨企业应用的日益复杂,单一的网络服务已实现不了复杂业务的需求,需要通过将多个满足不同功能的服务按照一定业务流程组合起来,来构建复杂的服务系统(SBS)以满足商业上的逻辑需求。另外,随着轻型智能设备、网络
大数据时代,网络及现实生活中充斥着纷繁复杂的篡改图像,使用单一的篡改手段已不能满足当前篡改者对图像视觉质量的要求,篡改者必然使用越来越多、越来越复杂的数字图像处理技术进行图像的篡改伪造,这无疑增添了辨别图像真伪的难度。篡改图像的恶意使用,并借助社交网络进行病毒式传播,对社会、国家、国际信任体系与安全构成巨大的威胁。研发针对篡改图像的检测技术,及时准确地检测虚假消息,对社会、国家,甚至国防安全战略等
图像分割作为图像处理领域的一项基础性任务,也是计算机视觉领域三大分类任务之一,其重点是对图像中的每个像素点分类,已在遥感、医学等领域得到广泛应用。然而,对于遥感领域的SAR图像分割问题来说,其结果常受相干斑噪声影响,使得SAR图像的分割质量下降。其次,在医学图像分割过程中,常受各种伪影,如噪声、信号强度不均匀等问题的影响,以及普通图像在拍摄及传输过程中常受高斯噪声影响,导致图像分割性能下降。针对以
随着5G网络的商业化与智能设备的便携化,日常生活中越来越多的数据将被数字化。伴随大量数字化数据在互联网中层出不穷,随之而来的便是隐私数据泄露的问题。一旦个人或商业隐私数据遭到泄露,造成的危害不可小觑。因此,保护隐私数据的安全已经成为当下热门的研究课题。在传统的隐私安全方案中,隐私数据通常由用户保存在单个存储设备中。如果存储设备损坏或隐私数据遭受恶意篡改,隐私数据将无法恢复。而拷贝多份副本并分发到多
随着临床医疗水平的快速提升和计算机技术的不断发展,虚拟手术仿真系统在新手医学教学、远程医疗、术前手术方案制定、术中导航以及术后康复等方面发挥重要作用,能够打破传统手术训练方式的某些限制、制定最佳手术方案以及提高手术成功率,因此虚拟手术的研究具有广泛应用前景,正成为医疗领域的前沿课题和研究热点。软组织形变模型是虚拟手术仿真系统中最为核心的部分,需要同时满足视觉逼真、模型形变真实性和交互实时性的要求,
随着监控设备质量的不断提高及其成本的持续下降,监控视频作为维护社会公共安全的重要手段近年来得到了广泛的关注。并且,随着新冠疫情的爆发,对确诊或疑似病例的流行病学调查至关重要;现阶段,从大量视频中查找病例需要耗费大量的人力物力,所以,利用行人重识别自动从图像中识别出所需要查询的行人对保障社会公共安全有着重要的意义。然而,各个公共场所中的背景具有复杂性,且光线明暗、遮挡、视角变换等一系列问题都使得行人
电真空管是舰载雷达、机载雷达、车载雷达中广泛使用的大功率微波器件。由于电真空管在长时间存放的情况下,会出现漏气或阴极钝化所致的真空度下降等问题,若直接装机使用很容易出现高压打火现象,从而对电真空管及其高压控制电路造成损坏。雷达老练台成为电真空管日常老练维护的必要设备,而雷达老练台高压电源作为雷达老练台的重要组成部分,将直接影响着雷达老练台的稳定性和安全性。由于雷达真空管型号多、管子参数分布广、管子