论文部分内容阅读
随着新时代信息数据的爆炸式增长,人们已经可以从各种来源获取和共享信息。网络中包含着数以亿计的数据和文件,并且正在以指数规模的速度激增。因此,人们正面临着信息超载这一不可避免且有挑战性的问题。这引起了人们对文本摘要技术的兴趣。在大数据时代的大规模长文本数据的文本摘要,对于人们能够快速、准确地从海量数据中获取有效数据具有重大的意义。文本摘要旨在将单个文档或一组文档作为输入,并产生简明流畅的总结,以期传达最重要的信息。以往的文本摘要的研究大多集中于短文本的数据上,而大规模长文本文摘要的缺乏又难以满足当前大数据时代的要求。在研究分析和总结文本向量表示及机器学习模型GRU原理的基础上,对运用机器学习模型解决文本摘要问题做了研究。主要研究工作如下:(1)对长文本序列,整个文本序列的语义表达完全只通过一个中间语义向量表达c来表示,会发生明显的特征丢失的现象,文本序列本身的语义信息和细节信息可能已经消失,设计使用词-句子-段落的多层编码器解码器模型对长文本摘要提供了方法。(2)基于传统的图排序方法计算了文本间的重要性和相关性,使用该方法计算编码后各语义向量的权重分配,并在其上进行改进,已输出的文本序列也会对后续产生的文本序列产生权重影响。(3)针对GRU模型的前向依赖问题,设计组合了正逆序GRU模型,组合编码出的正逆序的向量作为特征向量,将Bi-GRU模型作为对比模型,探究文本上下文的语境环境对文本摘要的影响。最后,通过设计4个文本摘要模型的对比实验,对比并分析了基于改进图注意力机制的双向GRU多层模型。研究舆情分析系统,将舆情分析系统抓取的网络数据自动生成文本摘要,并在舆情分析系统中进行展示。