论文部分内容阅读
文本自动摘要是利用计算机自动地将文本或文本集合转换成简短摘要的一种信息压缩技术。生成式摘要根据原文内容,将原文语义进行压缩,在允许生成新词汇的情况下对原文进行概括总结。近年来神经网络发展产生的文本表征极大地促进了生成式摘要的发展,但生成式摘要仍存在语义不相关、重复词和评测方法与损失函数不统一等问题。此外,文本摘要技术还有在专业领域应用困难的问题。为解决这些问题,本文提出了相应的改进方案。生成式摘要的基本结构主要由编码器和解码器组成,本文主要工作内容如下:(1)针对语义表征中语义不相关的问题,传统的编码器结构使用双向RNN进行词向量或者字向量的编码工作,将获得的静态上下文语义向量输入解码器生成序列文本,这种方式缺乏对动态语义的理解。本文使用BERT(Bidirectional Encoder Representation from Transformers)作为编码器编码字向量,BERT使用双向Transformer结构捕捉根据上下文不同而不断变化的动态词/字向量,能囊括更完整、更精确的语义。(2)针对摘要概括性不足、OOV(Out-Of-Vocabulary)未登录词和重复词问题,主流的复制生成网络仅仅复制源文档中部分词汇形成摘要,而人类生成摘要的方式具有抽象和概括性。本文提出了结合先验分布的指针生成网络,通过引入句段Embedding对源文本进行压缩语义,来指导指针生成网络的拷贝机制,辅助文本生成。(3)针对文本摘要损失函数和其评测方法ROUGE(Recall-Oriented Understudy for Gisting Evaluation)不统一的问题,主要是针对损失函数无法优化离散的量度。在本文中,本文提出使用强化学习的方法针对ROUGE进行优化,通过此方法模型生成的摘要可以和参考摘要具有更高的重合性,也使得ROUGE分数大大提升。实验结果验证了该方法的有效性。(4)针对文本摘要技术应用困难的问题,本文自制工业领域数据集并在其上完成文本摘要模型迁移,通过模型迁移前后的实验对比,验证了模型迁移的有效性。为进一步实现文本摘要落地应用,本文开发以迁移模型为核心的文本摘要服务以及与之结合的投诉业务模块,嵌入到工业制造领域企业客户管理平台中,通过对二者结合后的应用示范,论证了摘要技术落地后的应用价值。