论文部分内容阅读
随着网络信息数据的爆炸式增长,信息的快速、准确获取和有效利用变得越来越困难。自动文本摘要技术作为解决信息爆炸式增长与有效利用之间矛盾的重要手段,受到广泛关注。其致力于将原文中最核心的内容以最简洁的方式直接呈现给用户,从而提高用户获取和利用信息的效率,并能为其他文本处理技术提供支持。同时,舆情系统作为现代信息获取分析的重要工具,其能够自动化爬取监控到网络上的大量信息,然后针对爬取回来的信息做出相应的统计性和总结性分析。成熟的舆情系统在文本分析阶段一般都需要自动文本摘要技术的参与。通过摘要技术生成的摘要能够有效地提高舆情系统中的文本检索和文本相似性计算的效率。同时,每个文本生成的也能为产生事件总结性摘要提供核心信息内容。本文立足于舆情系统这一应用背景,围绕自动文本摘要技术展开研究,提出面向单文本的摘要模型和基于事件的文本聚类方法,结合这两者的综合运用,设计和实现舆情系统中事件分析模块的观点归纳和总结性摘要生成功能。首先,本文设计并实现一种面向单文档的基于深度学习的抽象式摘要生成模型。针对现有模型在挖掘原文句子间潜在依赖关系的不足,本文通过层次化编码器来完成将原文句子转化为可计算的潜在语义向量表示形式,利用自注意力机制来挖掘句子间潜在依赖关系。针对OOV问题,本文采用attentional sampling机制和拷贝模式来生成摘要。在LCSTS数据集上的对比实验表明模型是可行且有效的。接着,针对舆情系统中事件分析的文本数据应当描述同一事件的这一需求,提出一种基于ALN和WCC的文本事件聚类方法。根据描述同一事件的舆情文本往往采用相同的特定词语组合这一特点,采用ALN构造关于词语关联关系的网络图,然后执行社区发现操作。为处理好不同社区的节点重叠现象,采用基于WCC指标的节点集群更新策略,以及利用余弦相似度进行社区合并。利用文本映射公式将文本归属到对应的社区之中。通过上述步骤,完成文本聚类操作。最后,通过单文本摘要模型和文本事件聚类方法的综合运用,参考提取式摘要生成的思路,设计和实现舆情系统事件分析模块中观点聚集和总结生成功能。以单文本摘要模型中的文本句子向量作为文本的表示方式,利用x-medoids算法完成基于文本内容相似性的聚类操作,旨在挖掘出事件中的不同子方面的观点内容。接着,抽取每个聚类的簇中心文本对应的生成摘要作为该聚类的观点描述文本,并根据聚类的大小顺序拼接成事件总结文本。