基于神经网络的文本摘要生成技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sbwww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日常生活中,人们的阅读量越来越多,但获取的有效信息却越来越少,这本质上源于信息过载。文本摘要技术可以帮助读者快速了解文章主旨,节约阅读成本。主要分为抽取式摘要与生成式摘要,抽取式摘要从原文抽取语句作为摘要,例如Text Rank模型;生成式摘要主要依赖Seq2Seq架构输出新语句作为摘要,归纳性强。然而,经典Seq2Seq模型存在缺陷,譬如编码器语义理解不足、摘要语序紊乱以及未登录词等问题。针对上述问题,本文提出基于C-RNN编码器、Char-Based词向量输入以及引入Attention机制的Seq2Seq模型,主要研究工作如下:1、针对编码器语义理解不足的问题,本文提出C-RNN编码器。RNN擅长学习长距离依赖,不擅长捕捉局部语义特征,CNN则相反。本文提出的C-RNN编码器结合二者优势,增强编码语义理解,提升摘要质量。2、针对语序紊乱的问题,本文在解码端引入Attention机制,可以依赖其软对齐特性改善语序紊乱问题,优化摘要输出。3、针对未登录词的问题,本文提出Char-Based词向量输入,其词典较小,几乎不存在未登录词。C-RNN编码器能丰富词向量表达,结合Char-Based词向量实现一字多向量,增强语义理解,同时缓解未登录词问题。实验结果表明我们提出的方法有效缓解了以上问题,我们提出的模型在ROUGE-1、ROUGE-2、ROUGE-L指标上对比Text Rank模型分别提升7.2%、5.9%、7.5%,对比经典Seq2Seq模型分别提升10.6%、8.1%、9.7%。为验证本文提出的文本摘要模型的泛化性与实用性,本文设计实现了文本解析系统,对本文模型进行跨数据集测试、时效评估,测试结果表明本文模型具备高泛化性与实用性。
其他文献
雷达系统与通信系统,原本是两个功能不同的系统,一个着重于对目标的探测与跟踪,一个着重于高效的传输信息,两个系统都在军用和民用领域起着举足轻重的作用。但是频谱资源的枯竭、设备的冗余、系统的干扰、雷达系统与通信系统在某些方面的相似性等因素都促进了雷达与通信共享系统(Radar and Communication Sharing System,RadComSS)的研究。共享波形设计即通过设计出一种同时具
随着移动互联网的发展,无线局域网(WLAN)技术应用到越来越多的实际场景中,逐渐成为了手机、路由器等终端产品必不可少的无线通信手段,甚至在智能家居、aiot领域扮演者着越来越重要的角色。众多WLAN终端产品竞争激烈,对于这些产品的维护测试工具成为了工程师们高效开发的必需品。本文以国家光电实验室与某知名无线通信设备制造商的产学研合作项目为研究背景,基于实际WLAN终端产品,结合各种功能需求,研究WL
康复机器人能替代专业的护理人员对病人进行繁琐重复的康复工作,从而降低人力成本。人工气动肌肉因其与人类肌肉相似的特点,在康复机器人中得到了广泛的应用。在康复过程中,需要根据患者情况提供针对的训练,这个过程可以看作是一个轨迹跟踪控制问题。也就是说,康复训练可以通过人工气动肌肉驱动的康复机器人的轨迹跟踪控制来实现。然而由于人工气动肌肉存在复杂非线性以及强不确定性等因素,使得对其进行高精度控制十分困难。本
视觉目标跟踪是计算机视觉领域中最热门的研究课题之一,并且在智能视频监控、增强现实、自动驾驶等领域有着广泛应用。近年来,随着深度学习的发展,许多基于孪生网络的跟踪算法达到了非常优秀的性能。然而在跟踪过程中,由于目标对象发生形变、场景中的光照变化等一系列挑战,跟踪算法往往难以在精度与效率中取得平衡。因此,如何使目标跟踪器兼具高精度和高效率仍然是一个具有挑战性的问题。本文从精度和效率两个角度出发,在充分
目的探讨儿童及婴幼儿胶质瘤的特殊临床表现、组织病理类型及分布特点、分子病理改变及治疗特点。方法选择2012年1月至2018年12月行手术治疗的儿童(≤18岁)颅内胶质瘤患者,归纳分析儿童及婴幼儿的胶质瘤的组织病理类型、好发部位及临床表现等特点;按患儿接受手术时的年龄进行分组:婴幼儿组(0-3岁)与大龄儿童组(4-18岁),通过对两组患儿进行比较,归纳分析婴幼儿胶质瘤不同于儿童胶质瘤的特殊临床表现及
随着集成电路的发展以及各类片上系统(SOCs)的大量应用,芯片系统的发展逐渐向高速度、高集成度和微型化靠拢。其中处理器微处理器应用上,需要高精度的电源以及大的输出功率,同时为了实现CPU与电源的集成,因此对相应的DC-DC变换器提出满足低纹波、输出电流大、集成度高的要求。传统的DC-DC变换器适用范围逐渐变窄,不再适用于新型处理器。为解决上述难题,本文提出了一种六相交错并联型全集成Buck电路设计
煤矿、冶金、钢铁等许多工业生产行业的员工作业环境都伴随着高温的困扰,航空航天、医学等一些特殊的领域也无法避免高温作业。而随着近年来高温及极端天气情况出现频率显著升高,高温作业环境更加普遍地存在于夏季户外工作中。当环境温度超过37℃,人体的自身调节能力不足以支持活动产热与散热的平衡,热量在人体中累积使人体处于热应激状态,严重影响人体健康。冷却服作为便携式个体冷却装置,针对性地解决以上高温问题,保证人
学位
锗是一种重要的稀散金属,在半导体制造、航空航天、核物理探测、光纤通讯、红外光学器件、太阳能电池、PET化学催化剂、生物医药等领域应用广泛。其中光纤用锗占锗工业用量的比例最大,约30%。随着5G通信的到来,光纤用锗的需求量还将进一步增大,而伴随而来的还有大量含锗光纤固废,对含锗光纤固废中的锗进行回收和综合利用具有极大的社会意义和经济价值。硅锗分离与锗的回收一直是相关行业有待解决的难题,国内外尚无高效
分布式的多用户多输入多输出系统(Multiple Users Multiple Input Multiple Output,MU-MIMO)联合了多个地理位置相邻的基站,通过波束成形技术可以有效解决小区间干扰,充分挖掘了空间自由度,从而大幅度提升频谱效率和系统吞吐率。以上优势使得分布式MU-MIMO系统成为第五代移动通信和新一代无线局域网的核心技术之一。然而,在分布式MU-MIMO系统中,由于分布