论文部分内容阅读
移动互联网的不断发展使得互联网用户的群体不断壮大,网络上产生了海量的数据信息并且呈爆发式增长。你可能曾经遇到过这样的场景:当你因为对文章的标题感兴趣而点开文章连接时,你发现文章的内容与标题毫无关系。如何快速在这些海量信息中准确的获取我们需要的文本信息具有非常重要的研究价值,文本摘要生成技术作为解决这一难题的重要技术应运而生。随着对信息技术和人工智能研究的不断深入,文本自动摘要生成技术成为主流方法,但现有的文本自动摘要生成方法仍然存在很多问题。在预训练的词嵌入表示方面,如何更准确的表示句子的核心内容一直是自然语言处理领域需要突破的难题。从生成摘要的质量来看,一般存在句子冗余或者句间、词间语义结构混乱的问题。在模型泛化方面,有监督的模型训练方法依赖于人工书写的摘要,所以利用有限的人工摘要训练出针对多领域的摘要自动生成模型,是让自动摘要生成技术广泛应用的关键点。针对上述问题,本文主要做了以下三个方面的工作:文章分析了端到端模型中常用的解码器模型,通过分析我们发现,常见解码器存在信息遗失问题,可以通过添加注意力模型来解决这一问题。所以本文首先采用了有更好表征能力的BERT(Bidirectional Encoder Representation From Transformer)作为句向量的编码方式,在编码器中利用BERT的微调机制抽取定长的语义向量,结合以双向的长短期记忆网络(Bi-LSTM)使模型更加适应中文语义与写作习惯,并在解码器中添加注意力(Attention)层来帮助解码器,在每一个时间节点都获取到需要关注的注意力点。最后通过大量的实验证明BERT的句子级编码方式的抽取式摘要生成模型可以消除句子冗余、提高摘要的准确性和可读性。而注意力机制的加入则使得该算法生成的摘要能够更大程度还原原文本的核心内容。为了更加贴合人工书写摘要的方式,文章在前文研究的阶段性成果上提出了一个基于多头注意力的二段式摘要模型。将前文生成的摘要通过BERT词级编码作为输入,将多头注意力(Multi-head Attention,MHA)机制作为模型的解码器,将中间生成的一级摘要改写成最终摘要,形成了一个二段式摘要生成模型。相比于直接利用原文本进行生成式摘要生成的方式,利用中间一级摘要的方法具有适合生成式摘要模型的长度优势,即利用更短的内容、更加精炼的文本为生成式摘要的方法提供便利。实验证明,二段式摘要模型的短文本词嵌入编码更适合生成式的摘要模型,经过修改的多头注意力机制,可以提高生成摘要的可读性、减少语句混乱现象,为后续的研究工作提供方向。在提出的基于多头注意力机制的二段式摘要模型的基础上,设计并实现了交互设计良好、生成摘要质量较高的自动摘要系统。广泛的系统功能测试结果表明该自动摘要系统能够将网络上的文本信息一键生成质量较高的摘要,为文章提出的算法提供实际应用。