基于序列到序列模型的中文生成式自动文摘研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:thp2860051
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近几年文本数据的迅速增长,人们的生活充斥着海量的文本信息,如新闻、博客、邮件以及会议报告等。从大量的文本信息中提炼出重点内容已成为解决信息过剩的迫切需求,而自动文摘为此提供了一个解决方案。自动文摘的主要目的是将原文档的主要内容浓缩成一个精简摘要,提高人类快速获取文档信息的效率。早期自动文摘领域的工作大多集中在基于统计学和图排序算法的抽取式自动文摘。近年来,随着大数据和人工智能技术的迅猛发展,传统自动文摘研究正朝着从抽取式自动文摘到生成式自动文摘的方向演化,以达到生成更高质量摘要的目的。本文的主要工作集中在基于序列到序列模型的生成式自动文摘模型的研究,目前该方面的研究仍面临着诸多挑战,例如基本序列到序列模型的常见问题(词表溢出和信息重复)、获取原文档重点信息能力欠缺以及生成摘要不合理等问题,针对这些问题本文提出了相应的解决方案,主要的研究工作如下:首先,本文采用Subword分词算法处理序列到序列模型的词表溢出问题,该方法将词分割成更细粒度的子词单元,显著减小了词表长度,缓解了词表溢出。同时,本文将已生成摘要的注意力机制嵌入序列到序列模型中以缓解信息重复问题,该机制通过回顾已生成的摘要信息来削弱当前状态蕴含的冗余信息,从而降低生成摘要内容重复的概率。在NLPCC 2017中文单文档摘要标准评测比赛中,该模型获第一名,证明了其有效性。其次,人类在撰写摘要时,往往会预先对原文档的重点信息进行归纳总结,并标记出主题词以方便后续的摘要写作。而绝大多数序列到序列的生成式自动文摘模型将注意力分配到原文档所有内容中,对其蕴含的重要主题信息并没有细致地区分,因而增大了模型对原文档中重点信息发掘难度。鉴于此,本文提出了一种新的融合主题关键词信息的注意力机制,并将其嵌入序列到序列模型中以强化原文档的主题信息,从而更好地引导摘要的生成。具体而言,我们先采用无监督方法识别文本的主题关键词,然后将主题关键词注意力机制和原文档输入序列注意力机制联合起来,辅助模型生成最终的摘要。在NLPCC 2017的中文单文档摘要评测数据集上的实验结果验证了此方法的有效性。最后,人类通常也会对初次撰写的摘要语句进行多次打磨修改,以确保摘要内容的合理与流畅。如今大部分自动文摘系统尚未考虑对已生成的摘要内容进行回顾和修改,因此最终的摘要仍存在一些不尽完善之处。为了解决此问题,本文提出基于全局最新信息的推敲网络模型,该模型包含两阶段解码器,第二阶段的解码器将结合原文档输入序列信息和更新后的摘要信息对第一阶段的解码器输出内容进行斟酌推敲,确保生成更高质量的摘要。在NLPCC 2017的中文单文档摘要评测数据集上,该模型和基本模型进行了对比实验,验证了该机制的有效性。
其他文献
塑造良好的富有感召力的国家形象不仅对提高一个国家的文化实力至关重要,而且对一个国家的国际影响力也有很深刻的影响。影视文化作为国家物质文化和精神文化的重要组成部分,
或引渡或起诉是国际司法合作的重要原则,同时也是对国家司法主权的合理限制。被请求国在行使起诉与引渡这一重叠管辖权时存在选择性的先后顺序。是否予以起诉本身对于被请求
信息化时代的到来促进了我国计算机网络的广泛运用。但是由于计算机及其网络本身的脆弱性、人为的恶意攻击和破坏,给网络信息造成了很大的危险。网络信息安全问题开始受到人
<正>在谈绿色维修之前,先向大家简单介绍一下Autel(道通科技)。道通科技的全称是深圳市道通科技股份有限公司,成立于2004年,主要生产汽车智能科技维修设备。目前主要有七大系
在智能制造背景下,很多的高职院校都开设了工业机器人技术专业。文章主要基于对高职院校工业机器人技术专业定位的分析,围绕基地实训设备,试图构建起工业机器人技术专业实训
目的探究尿液中微量白蛋白(m Alb)、转铁蛋白(TRF)、免疫球蛋白G(Ig G)、及α1-微球蛋白(α1-MG)对过敏性紫癜(HSP)患儿早期肾损伤的临床诊断价值。方法选取2016年2月-2017年
护理专业在维系人类生命、保障人类身心健康方面起着至关重要的作用。护理人员健康状况的好坏与否关系到护理专业的发展,护理队伍的稳定及护理质量的优化。随着医学科学技术的
通过OM、SEM、EDS和XRD等研究了铸态及挤压态Mg-2Zn-1Mn-XY (X=0,0.8,2.2)(质量分数,下同)镁合金显微组织和力学性能。由实验结果可知,稀土Y的添加,不仅可以细化铸态及挤压态
目的:探讨早期护理干预对预防剖宫产术后尿潴留的效果。方法:选取笔者所在医院2013年10月-2014年3月进行剖宫产手术的产妇45例作为对照组,护理人员对对照组产妇采用常规护理模
该文研究了分散固相萃取―气相色谱―串联质谱(GC–MS/MS)联用技术测定粮谷中20种有机磷农药残留的方法。改进了粮谷前处理中的提取溶剂、分散固相萃取净化剂的加入量以及提取