论文部分内容阅读
随着大数据时代的到来,网络学术资源开始呈现出爆炸式的增长,这使得科研工作者被淹没在越来越浩瀚的文献海洋当中。因此,如何自动地概括一个学科领域的文献集合以生成一份简洁、全面的综述报告,已经成为了目前知识管理研究与实践的热点问题之一。自动摘要作为自然语言处理中的一项重要技术,其通过对文档信息进行汇总和压缩,从而以一种浓缩且贴近用户需求的方式将最为关键的信息予以呈现,旨在帮助科研人员达到“站在巨人肩膀上”的目的。本文围绕如何提高面向学术文献的自动摘要方法展开了深入研究,结合了有关深度学习的一系列理论与方法,例如基于神经网络的文本表示方法、基于Seq2Seq模型的自动摘要方法,以及关于文本挖掘的经典算法,例如统计主题模型LDA 与 Labeled-LDA、链路分析方法 PageRank 与 PageRank with Priors,进而构建了一个“基于深度学习的学术文献自动摘要方法研究”体系,并且选用了美国计算机协会数字图书馆中的一部分(与计算机科学相关)文献进行数值实验验证。本文的主要研究内容包括:1.将“文献综述生成”任务定义为一个序列文本生成问题,进而提出了一种基于层次神经网络的Seq2Seq模型。具体地,该模型的核心组件包括一个层次文档编码器和一个基于注意力的解码器,其中层次编码器分别通过CNN层和RNN层实现句子级与文档级的语义表示,不仅能够正确地反映文档结构的层次性,还可以避免过长的单词序列所引发的梯度弥散和信息损失;而在解码过程中,注意力机制将各个候选句的显著性和新颖性同时纳入考虑,以保证所生成文摘在最大化代表性的时候尽量最小化其冗余性。2.基于“文献综述”是上下文感知的这一特点,提出了一种融合上下文信息的Seq2Seq模型。具体地,该模型首先利用Labeled-LDA算法推断每个候选句的主题分布,然后在文档编码过程中结合句子的主题信息,最后将源文本同时进行编码以添加到解码过程中,从而能够计算各个候选句与目标文献之间的上下文相关性。3.根据静态地分析上下文相关性无法满足文本语料是动态变化的这一事实,从信息网络的角度探索了图形上下文对于“文献综述生成”任务的重要程度,进而提出了一种联合上下文驱动的Seq2Seq模型。具体地,该模型首先利用Node2Vec算法矢量化异构学术网络中的每个节点,然后计算任意两篇论文在图形上下文中的连通距离,最后在解码过程中同时引入来自纯文本以及异构学术网络中的两种不同上下文相关性。