基于深度学习的自动文本摘要研究

来源 :西南石油大学 | 被引量 : 0次 | 上传用户:shao_xiao_dong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本摘要(Automatic Text Summarization,又称自动文摘)是一种信息抽取技术,它要解决的问题是如何从海量的数据中快速的抽取重要信息。随着数字媒介普及,自动文摘被需求的场景越来越多,包括自动报告生成、新闻标题生成、新闻摘要生成、搜索结果预览、论文摘要生成等等领域。自动文摘要技术可划分为抽取式摘要和生成式。抽取式摘要主要使用规则、统计、图排序等方法,从原文中抽取文档的重要句子作为该文本的摘要,这些方法实现起来方便快捷,但抽取的摘要也有连贯性差、信息冗余等缺点。生成式摘要主要使用深度学习的相关方法,通过对原文档进行理解和抽象,生成概括性的摘要序列。本课题基于深度学习技术,分别研究了抽取式和生成式的自动文本摘要问题。对于抽取式摘要,本课题主要对经典Textrank算法提出了两处改进:第一、使用神经网络语言模型对词向量的训练和表征。第二、提出了相邻句子存在语义逻辑的思想,并将句子间的语义逻辑融入到了句子相似度计算中。实验结果显示,上述两处改进措施有效的提升模型的效果。对于生成式摘要,本课题主要使用深度学习的方法和框架来构建自动文摘系统,研究思路如下:首先,在模型中使用了 Encoder-Decoder框架,Encode端将输入序列编码成中间语义向量C,并将C传给Decode端,Decode端通过对中间语义向量C的学习继生成该文档的摘要序列。其次,对输入的设计上,考虑将输入序列丰富的文本特征和输入序列的词向量融合在一起作为整个模型的输入。第三,在模型中了使用注意力(Attention)机制,主要考虑了两个层级的注意力,分别是词级别和句子级别的注意力。实验结果显示,上述设计有利于增加输入序列的信息量,使得模型在生成目标序列时能够捕获输入文本序列中的重要信息,有效提升了模型的性能。
其他文献
<正> 一、儿童观的历史演变18世纪末,在欧洲,成人对儿童及其心理的认识发生了极大转变,他们开始把儿童看作是与成人甚至与青少年不同的个体。这是近300年里占主导地位的儿童
<正>一、KKD公司概况1937年KKD始创于北卡罗来纳州的温斯顿塞勒姆的一个甜甜圈店,当时弗农·鲁道夫从新奥尔良的法国糕点厨师那购买了酵母甜甜圈的配方,并将甜甜圈批发给超市
空气清新剂灭菌效果观察军事医学科学院卫生环境医学研究所(天津300050)张华山,李官贤,吴佛运,陈士清空气清新剂的问世对改善人们生活环境、提高空气质量具有重要意义.目前市场上销售的空
鱼雷是针对水面与水下目标而出现的一种进攻性武器,尤其是对于水下目标来说,鱼雷的威胁是致命的,因此,世界各国在反鱼雷水声对抗技术方面进行了长期研究,同时,出现了大量的反
移动荷载识别属于结构动力学逆问题的范畴,而逆问题的一个显著特点就是存在不适定性。大多数移动荷载识别方法最终都转化为线性方程组的求解,方程组的不适定往往造成不同求解
基于《邯郸市统计年鉴》1994年~2007年有关数据统计资料,对邯郸市的主要农业气象灾害及综合灾情进行统计分析,并就气象灾害对粮油棉产量影响做灰色关联度分析。结果表明:1994
日前,围绕宫斗剧的话题在互联网上受到广泛的热议。有媒体近日报道称,几家电视台疑似停播宫斗剧,而改播其他电视剧。$$最近几年,荧屏上的宫斗剧出现了扎堆现象。从《甄嬛传》到《
报纸
目前我国介入手术医生的总量远远不能满足冠心病患者的治疗需求,运用新的心血管介入手术训练手段来加快医生的培养显得尤为迫切,故开展心血管介入虚拟手术系统的研究有重要意
偏振调制测距方法中,频率测量的稳定性是影响测距精度的关键因素。为提高偏振调制测距系统中频率测量精度,提出一种双向扫频频率测量方法。分析了偏振调制测距原理及测频精度
20世纪上半叶,我国学者与西方传教士在对岷江上游羌族地区的调查中首次发现了"羌戈大战"这一传说。历经几代学者的挖掘、整理与研究,"羌戈大战"现已成为理解和认识羌族古老历