基于seq2seq框架文本摘要的研究与实现

来源 :北方工业大学 | 被引量 : 11次 | 上传用户:caoyongtao1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新时代信息数据的爆炸式增长,人们已经可以从各种来源获取和共享信息。网络中包含着数以亿计的数据和文件,并且正在以指数规模的速度激增。因此,人们正面临着信息超载这一不可避免且有挑战性的问题。这引起了人们对文本摘要技术的兴趣。在大数据时代的大规模长文本数据的文本摘要,对于人们能够快速、准确地从海量数据中获取有效数据具有重大的意义。文本摘要旨在将单个文档或一组文档作为输入,并产生简明流畅的总结,以期传达最重要的信息。以往的文本摘要的研究大多集中于短文本的数据上,而大规模长文本文摘要的缺乏又难以满足当前大数据时代的要求。在研究分析和总结文本向量表示及机器学习模型GRU原理的基础上,对运用机器学习模型解决文本摘要问题做了研究。主要研究工作如下:(1)对长文本序列,整个文本序列的语义表达完全只通过一个中间语义向量表达c来表示,会发生明显的特征丢失的现象,文本序列本身的语义信息和细节信息可能已经消失,设计使用词-句子-段落的多层编码器解码器模型对长文本摘要提供了方法。(2)基于传统的图排序方法计算了文本间的重要性和相关性,使用该方法计算编码后各语义向量的权重分配,并在其上进行改进,已输出的文本序列也会对后续产生的文本序列产生权重影响。(3)针对GRU模型的前向依赖问题,设计组合了正逆序GRU模型,组合编码出的正逆序的向量作为特征向量,将Bi-GRU模型作为对比模型,探究文本上下文的语境环境对文本摘要的影响。最后,通过设计4个文本摘要模型的对比实验,对比并分析了基于改进图注意力机制的双向GRU多层模型。研究舆情分析系统,将舆情分析系统抓取的网络数据自动生成文本摘要,并在舆情分析系统中进行展示。
其他文献
家国情怀是中华优秀传统文化中至关重要的价值理念,是一种个体的信念和理想,表现为个人修为以及个人对家庭和国家的情感认同、仁爱之心以及由此生发出的责任意识和担当精神。
地下管网是城市的"生命线",在城市基础设施高质量发展中发挥着重要作用。作为贵州"六网会战"的重要内容之一,全省从去年开始全面启动了地下管网会战,快速推进地下管网建设,为
[人物简介]白松,25岁,铜仁市万山区旺家花园社区易地扶贫搬迁安置点搬迁户,2017年毕业于华中科技大学工程力学专业,在社区帮助下成为搬迁点一家科技型企业副总经理,现稳定带
注塑、翻板、质检、贴标……位于贵州大龙经济开发区的贵州东亿电气实业有限公司一期生产线上,1500余名工人正在自己的工位上熟练地生产打火机。"4月底我们刚忙完一笔200万只
脱贫战正酣,夜校灯火明。近年来,按照省委主要领导"共青团要把夜校办到农村去"的要求,团省委聚焦少数民族地区和深度贫困地区,以村和易地扶贫搬迁安置点为单位,开办青年志愿
<正>~~
通过与企业就创新平台建设、高层次人才引进、技术创新方向、研发模式和路径以及科技金融、商业模式创新、产学研合作等方面的深入交流,"千企面对面"对接技术、资源和政策,企
籽粒硬度是小麦重要品质性状之一,根据籽粒的硬度国际上把普通小麦分为软质麦,硬质麦和混合麦3种类型。其中硬质小麦具有硬度大,蛋白含量高,面筋强度大,面粉颗粒较粗,吸水率高并适
作为全省工业经济的"四梁八柱",十大工业产业畅通供应链实现协同发展,不仅是助推企业走出困境、稳住全省工业经济发展基本面的有力抓手,更是提升产业竞争力,实现从价值链中低
作为全国首个大数据综合试验区和国内首个发布省级层面数字经济发展专项规划的省份,贵州省在沉着应对疫情的同时,推动大数据、人工智能、云计算等为代表的数字经济"危"中寻"