基于BERT-KA-PGN模型的中文文本摘要技术研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:lz251667032
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网的快速发展给人们带来了海量信息的同时也带来了信息过载的问题。因此研究如何在海量信息中快速获得关键信息变得愈发重要,而自动文本摘要技术正是相关研究的重点领域。随着深度学习的发展,它在文本摘要领域的应用研究也是层出不穷,本文则是针对现有文本摘要模型的生成摘要中的语义表示不够准确以及关键信息不足等问题,在中文文本摘要任务上对自动文本摘要技术进行改进研究,主要的研究工作如下。针对上文所提到的自动文本摘要中的问题,本文以Seq2Seq加注意力机制模型为基础,设计了一种改进的文本摘要模型——基于BERT和融合关键词注意力机制的指针生成网络模型(BERT-Keywords Attention-Pointer Genrator Network,BERT-KA-PGN)。该模型将BERT预训练语言模型作为词嵌入层加入到网络中,加强对输入语句的上下文理解,从而获取语义表示更加丰富的向量信息。并且通过关键词抽取算法抽取文本的关键词,然后将关键词融入注意力机制中,让模型在生成摘要过程中更加关注文本中的主旨信息,从而使得生成摘要中包含更多的关键信息。模型同时也结合了带有指针网络和覆盖机制的指针生成网络模型的结构优势,用以解决文本摘要中的未登录词和重复值问题,从而提高本文模型的生成摘要质量。本文在NLPCC2017数据集和飞桨数据集上对模型进行对比实验,实验结果表明,指针生成网络模型与Seq2Seq加注意力机制模型相对比,在NLPCC2017数据集上,Rouge-1,Rouge-2和Rouge-L的分数分别提升至34.46%、19.42%、30.17%,在飞桨数据集上,相应的Rouge分数提升至37.52%、21.78%、32.34%,这说明了指针生成网络模型的结构优势;而BERT-KA-PGN模型与指针生成网络模型相对比,在NLPCC2017数据集上,相应的ROUGE分数分别提升至38.65%、22.43%、33.51%,在飞桨数据集上,相应的ROUGE分数分别提升至42.28%、23.89%、35.63%。综上可知,加入BERT和融合关键词注意力机制提升了自动文本摘要模型的摘要生成效果,这对于自动文本摘要的研究具有一定的参考价值。
其他文献
机器阅读理解是当前自然语言处理领域最为前沿和热门的研究方向之一,它的研究目的是利用计算机建立模型,使计算机能像人类一样阅读文章、分析语义和回答问题,有着重要的研究价值和实用价值。随着硬件算力的不断提升、大数据的爆炸式增长,以及深度学习技术的不断发展,机器阅读理解研究有了长足的进步,在一些特定的任务中,计算机模型的回答已经可以媲美人类的水平了。机器阅读理解模型需要充分理解问题和文章的语义信息,通常采
模拟画像是由画像师通过目击证人的描述,结合刑事相貌学和画师个人经验,对嫌疑人进行肖像绘画,在刑侦工作中具有重要作用。由于其专业性,使用门槛较高,且现有模拟画像系统依赖图像合成,存在拼接人脸图像生硬、缺失启发性推荐、人脸编辑不够灵活、肖像人脸细节缺失的问题和不便于进行大规模检索的问题。本文针对模拟画像系统存在的问题和关键技术展开研究,具体研究内容如下:(1)目前人脸肖像化和重建主要依靠成对的数据建立
本文采用前沿神经网络算法研究成果,结合追踪算法,在此基础上结合肤色检测、清晰度检测、人脸姿态估计构建一个面向图像序列的人脸检测、追踪、优选为一体的方式,相信可以用于人脸识别的应用里并且发挥很好的改善作用。针对人脸区域在图像中提取问题,采用MTCNN网络算法作为人脸检测算法,能够有效快速地检测出图像中的人脸部分。人脸在图像序列之中,位置可能会随着时间的改变而不断变化,针对人脸区域无法动态锁定的问题,
当今城市中摄像头的数量大幅度增加,这为现场监控和事故的追踪提供了极大的便利。但由于摄像头的监控信息中,有效信息较少,如果需要按照行人属性对行人进行检索或分类,手动整理的工作量将是巨大的。因此,为了节省工作成本,研究一种端到端的、自动地对行人属性进行识别的模型是很有必要的。虽然当前已经提出了许多行人属性识别方法,但存在较多难点需要解决。典型的待解决三个问题有:(1)行人属性空间依赖关系和属性间的语义
近几年移动互联网技术的广泛传播使得移动端应用程序的安全性也逐渐受到人们的重视,而Android系统作为时下流行的智能手机操作系统,它的安全性自然也受到大众广泛的关注。怎样能够高效快捷的实现恶意代码的检测识别成为保护用户信息安全的关键问题。本文主要针对Android恶意代码的图像特征的有效提取以及利用机器学习算法实现分类系统模型的设计做了深入研究,主要工作内容如下:1.本文提出将Android应用程
随着社会的发展,基于位置移动的室内定位服务深入到各个行业和人们的日常生活中。智能家居、机器人、自动驾驶等项目的兴起,促使精准的室内定位的需求也越来越强烈。在技术领域,室内定位技术主要基于射频、蓝牙和声波等媒介,基于视觉的室内定位技术还不像其他技术那么成熟。视觉定位有设备容易获取、成本低、可以充分利用图像信息等优势,所以有着广阔的发展前景。基于视觉的室内定位,首先要从图像中获取有效的像素点,本文借助
软件测试作为一种检查实际软件产品是否符合预期要求并确保软件产品无缺陷的方法,对提高产品质量有着重要作用。目前敏捷开发和持续集成等手段广泛应用于软件开发过程,缩短开发周期的同时也限制了软件产品的测试时间,导致产品质量难以得到保证。并且本着用户至上的原则,软件需求屡屡变更,产品版本频繁发布。测试人员往往需要花费大量时间针对不同版本,做重复的测试工作,极大地浪费时间和人力资源,存在严重的效率低下问题。为
在互联网信息时代的今天,人们每时每刻都在产生大量与地址有关的信息。中文地址是描述空间坐标最有效的信息,这些信息与人的行为密切相关,可以通过这些信息定位推测出一个人一整天的行为流程和运动轨迹,这些记录普遍存在于网上购物、短视频APP、通信、银行等领域,对于这些数据进行充分的挖掘与分析,会对个人发展和国家经济产生积极的影响。目前,国内对于中文地址的研究还处在刚刚萌芽的阶段,中文地址研究的困难点在于其地
随着数字信息时代的快速发展,由此引发的信息过载现象日益严重。如何在海量文本中快速获取关键信息,显得尤为重要,因此文本自动摘要相关算法,成为目前研究的热点方向。本文以呈现高质量摘要的角度出发,对中文文本摘要抽取算法进行相关研究。本文针对中文文本摘要任务,基于TextRank算法进行优化,改进主要分为三个方向:(1)改进TextRank算法对中文文本直接摘要抽取首先,本文从能够影响摘要生成质量的各类因
互联网的发展可以说颠覆了传统模拟有线电视的存在。现如今,集各种功能于一体的机顶盒几乎存在于中国的每家每户,与传统的观看方式相比,机顶盒有其独特的优势,可以为用户带来良好的使用体验,然而相比于机顶盒,遥控器给用户的体验却不那么友好。用户更多的会受到由于遥控器丢失、没电带来的困扰,所以设计一款能够替代遥控器对机顶盒进行管理操作的软件是很有必要的。虽然每家每户对于机顶盒的需求不同,但所有人都会希望有一个