基于混合神经网络的单文档自动文摘方法研究

来源 :浙江理工大学 | 被引量 : 2次 | 上传用户:ping_ge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着网络的发展,互联网上出现了大规模的数据集、电子文档,人们也越来越依赖于从互联网上获取信息,因此自动文摘的作用领域得到了很大的扩展,文摘的使用也越来越广泛。传统的摘要都是经过人工对目标文本的理解概括形成的,需要耗费大量的时间和精力,且工作量大,已不能满足信息时代的要求。针对这一问题,自动文摘随之产生。近年来,采用深度学习方法应用到自动文摘中已经逐渐成为新的研究热点。如何迅速有效地从海量信息文献库中获取实用的信息成为人们急需解决的难题,而自动文摘正是解决这一难题的有力工具之一。为了解决文本内容表示和文摘内容选取的问题,提出了一种基于混合神经网络模型的自动文摘方法。针对自动文摘过程中句子抽取这一部分,提出一种基于改进的循环神经网络自动文摘方法,从而提升模型在自动文摘句子抽取中的性能。本文的研究工作主要包括以下四个方面:(1)针对文本预处理技术提升空间有限,而文本内容表示和文摘内容选取的改进空间较大,本文提出一种基于混合神经网络模型的自动文摘方法,该方法将在训练过程中高效且不易过拟合的卷积神经网络和在序列预测上有不错效果的长短期记忆网络模型相结合,其中卷积神经网络部分用于表示句子向量,长短期记忆网络部分用于抽取摘要句子。(2)针对自动文摘过程中句子抽取这一部分,本文采用一种基于改进的循环神经网络模型,该模型用LSTM记忆单元结构替换了原来循环神经网络中的隐藏层。实验结果表明,本文模型最终得到的ROUGE-2值和ROUGE-3值比基于LSTM改进的循环神经网络高0.024和0.0155。(3)本文比较了LDA模型、LSI模型、决策树、逻辑回归、神经网络、卷积神经网络以及基于LSTM改进的循环神经网络这6种模型在自动文摘生成上的表现,实验结果表明,基于混合神经网络的单文档自动文摘方法在自动文摘获取上效果最好。(4)本文设计并实现了一个基于混合神经网络的单文档自动文摘系统,该系统分为三部分,第一部分是对文本数据进行分词处理;第二部分是对分词后的结果进行词转向量;第三部分是调用本文的自动文摘算法,计算后得到文本摘要。
其他文献
以3只安装永久性瘤胃瘘管的山羊为试验动物,以淀粉、纤维素和酪蛋白为底物,银杏叶提取物在瘤胃培养液底物的浓度设为0(对照组)、0.30%、0.60%、0.90%、1.20%5个水平,利用相对定量PCR法分析
从旧金山起飞5个多小时后,飞越半个太平洋,我们来到了位于太平洋中央,以阳光、海浪、沙滩、椰树著称的夏威夷首府檀香山。夏威夷群岛,这块绿色的翡翠,是孤悬海外的美国第50个
期刊
2005年7月14日,32岁的江南春成为第一个被邀按响美国纳市开市门铃的中国人。他一手创办的分众传媒成功登陆纳斯达克,一举坐拥近30亿人民币,成为排名仅次于陈天桥、丁磊之后的中
“现在我国正在大力鼓励创新,正在围绕核心技术拼命打造核心竞争力。但我想说的是,创新是需要条件的,不是什么人都可以创新。”近日,在“2005中国创新论坛”上,清华科技园发展中心
为了提升中国的自主创新能力,我国需要做多方面的努力。其中一个重要而紧迫的工作就是要加强创新文化建设,大力构建有利于自主创新的文化氛围。任何一个国家或地区的人们对创造
逻辑是一种思维的方式,其中以必然性的推断为主要特征。就像我们知道了所有人都不会万寿无疆一样,这时候你若祝愿某人万岁、万岁、万万岁,如果不是出于真实的情感涌动,我们只能说
山东济南高三学生潘立群今年可谓喜忧参半,喜的是,今年4月,在丹麦首都哥本哈根举行的2006年度国际中学生创新成果展上,他发明的“可解决色觉障碍的交通信号灯”获得工程学一等奖
对一种沥青、三种矿料级配类型所组成的沥青混合料进行了高温稳定性、水稳性和抗疲劳性试验研究;分析了不同级配沥青混合料的优劣性,基于也门的自然及社会条件,给出了适合也门的
<正> 3.组织和断口形貌的观察及其与性能的关系分析(1)三种钢显微组织的比较与分析比较55SiMnMoVNb和60Si 2 Mn钢的淬火组织可以看出,55SiMnMoVNb钢的淬火组织比60Si 2 Mn细
通过对孟家岗林场40年生樟子松母树林不同密度疏伐处理后14个主要性状的统计分析,结果表明,疏伐处理对樟子松母树多个性状造成了显著影响,而且不同性状之间存在极为复杂的相关性