论文部分内容阅读
近年来随着网络的发展,互联网上出现了大规模的数据集、电子文档,人们也越来越依赖于从互联网上获取信息,因此自动文摘的作用领域得到了很大的扩展,文摘的使用也越来越广泛。传统的摘要都是经过人工对目标文本的理解概括形成的,需要耗费大量的时间和精力,且工作量大,已不能满足信息时代的要求。针对这一问题,自动文摘随之产生。近年来,采用深度学习方法应用到自动文摘中已经逐渐成为新的研究热点。如何迅速有效地从海量信息文献库中获取实用的信息成为人们急需解决的难题,而自动文摘正是解决这一难题的有力工具之一。为了解决文本内容表示和文摘内容选取的问题,提出了一种基于混合神经网络模型的自动文摘方法。针对自动文摘过程中句子抽取这一部分,提出一种基于改进的循环神经网络自动文摘方法,从而提升模型在自动文摘句子抽取中的性能。本文的研究工作主要包括以下四个方面:(1)针对文本预处理技术提升空间有限,而文本内容表示和文摘内容选取的改进空间较大,本文提出一种基于混合神经网络模型的自动文摘方法,该方法将在训练过程中高效且不易过拟合的卷积神经网络和在序列预测上有不错效果的长短期记忆网络模型相结合,其中卷积神经网络部分用于表示句子向量,长短期记忆网络部分用于抽取摘要句子。(2)针对自动文摘过程中句子抽取这一部分,本文采用一种基于改进的循环神经网络模型,该模型用LSTM记忆单元结构替换了原来循环神经网络中的隐藏层。实验结果表明,本文模型最终得到的ROUGE-2值和ROUGE-3值比基于LSTM改进的循环神经网络高0.024和0.0155。(3)本文比较了LDA模型、LSI模型、决策树、逻辑回归、神经网络、卷积神经网络以及基于LSTM改进的循环神经网络这6种模型在自动文摘生成上的表现,实验结果表明,基于混合神经网络的单文档自动文摘方法在自动文摘获取上效果最好。(4)本文设计并实现了一个基于混合神经网络的单文档自动文摘系统,该系统分为三部分,第一部分是对文本数据进行分词处理;第二部分是对分词后的结果进行词转向量;第三部分是调用本文的自动文摘算法,计算后得到文本摘要。