基于深度学习的文本摘要自动生成模型研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:suojianpku798
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动摘要是利用计算机自动地将文本或文本集合转换成简短摘要的一种信息压缩技术。生成式摘要根据原文内容,将原文语义进行压缩,在允许生成新词汇的情况下对原文进行概括总结。近年来神经网络发展产生的文本表征极大地促进了生成式摘要的发展,但生成式摘要仍存在语义不相关、重复词和评测方法与损失函数不统一等问题。此外,文本摘要技术还有在专业领域应用困难的问题。为解决这些问题,本文提出了相应的改进方案。生成式摘要的基本结构主要由编码器和解码器组成,本文主要工作内容如下:(1)针对语义表征中语义不相关的问题,传统的编码器结构使用双向RNN进行词向量或者字向量的编码工作,将获得的静态上下文语义向量输入解码器生成序列文本,这种方式缺乏对动态语义的理解。本文使用BERT(Bidirectional Encoder Representation from Transformers)作为编码器编码字向量,BERT使用双向Transformer结构捕捉根据上下文不同而不断变化的动态词/字向量,能囊括更完整、更精确的语义。(2)针对摘要概括性不足、OOV(Out-Of-Vocabulary)未登录词和重复词问题,主流的复制生成网络仅仅复制源文档中部分词汇形成摘要,而人类生成摘要的方式具有抽象和概括性。本文提出了结合先验分布的指针生成网络,通过引入句段Embedding对源文本进行压缩语义,来指导指针生成网络的拷贝机制,辅助文本生成。(3)针对文本摘要损失函数和其评测方法ROUGE(Recall-Oriented Understudy for Gisting Evaluation)不统一的问题,主要是针对损失函数无法优化离散的量度。在本文中,本文提出使用强化学习的方法针对ROUGE进行优化,通过此方法模型生成的摘要可以和参考摘要具有更高的重合性,也使得ROUGE分数大大提升。实验结果验证了该方法的有效性。(4)针对文本摘要技术应用困难的问题,本文自制工业领域数据集并在其上完成文本摘要模型迁移,通过模型迁移前后的实验对比,验证了模型迁移的有效性。为进一步实现文本摘要落地应用,本文开发以迁移模型为核心的文本摘要服务以及与之结合的投诉业务模块,嵌入到工业制造领域企业客户管理平台中,通过对二者结合后的应用示范,论证了摘要技术落地后的应用价值。
其他文献
尊敬的彼得·皮奥特先生:尊敬的各位来宾、各位同仁、女士们、先生们:首先,我代表国家卫生部,并以大会主席的名义祝贺第一届中国艾滋病性病防治大会召开,向来自国内、外
近年来,计算机视觉已成为各类学科领域研究的重点,逐渐被应用于各类科研场景。医务工作者在临床上做血常规检验时,经常会采用血细胞图像分析系统对镜下白细胞图像进行自动计
预防腐败机制的合理设计和有效应用对抑制腐败的发生有着不可替代的作用。随着中小民营企业的不断发展其市场地位不断加强,与中小民营企业相关的基层腐败逐步增加,同时我国反
<正>为落实《国务院关于促进云计算创新发展培育信息产业新业态的意见》(国发[2015]5号)、《推动企业上云实施指南(2018—2020年)》(工信部信软[2018]135号),按照《工业和信
教育信息化政策是国家调控、规范教育信息化活动的政府行为,系统地探究其政策结构体系,对教育信息化更好地实施、预测教育信息化发展形势等具有重要意义。基于扎根理论与共词