论文部分内容阅读
随着互联网的快速发展,在线的新闻媒体站点源源不断地产生和传播每天发生的各种各样的事件。面对如此庞大的信息量,不借助自动化工作,公众很难有效地从中获取自己想要的信息。事件线抽取(Storyline Extraction),旨在从海量的新闻文本中自动地抽取和总结热点事件,并以结构化的方式跟踪和揭示事件是如何随着时间发展。很显然,事件线的抽取将有助于读者面对海量的新闻文本,清晰把握,了解当前发生的主要事件的发展脉络。因此,具有十分重要的现实意义和应用价值。目前已有若干面向新闻文本的事件线抽取方法被提出,其中大多数方法基于贝叶斯概率图模型,采用无监督的方式。相比于有监督方法,无监督更贴近人类学习的方式,无需进行数据标注,更加稳定与通用,因此广受研究人员的关注。但是,概率图模型一类的方法通常存在模型结构复杂,运算耗时等问题。考虑到深度学习在自然语言处理领域的广泛应用,相比较于传统方法,深度学习能够自动学到海量数据中隐含的语义信息并完成特征抽取,具备挖掘深层次特征的能力,因此已经在多个自然语言处理的任务当中取得了显著的表现。因此,本文针对面向新闻文本的基于深度学习的事件线抽取方法进行研究,结合深度学习与无监督的优点,在不使用标注数据的情况下更多地挖掘文本中深层次的语义特征。本文的主要工作有:(1)为了解决现有的使用概率图模型抽取事件线存在的结构复杂,推导繁琐,速度慢等问题,我们提出了基于神经网络的事件线抽取模型(NSEM)。该方法基于新闻正文和标题的两个相似性假设,采用成对排序损失对模型的参数进行优化,将事件抽取与事件线构建纳入到一个统一的框架中,并且能够利用文本中丰富的语义信息。我们在三个新闻的数据集上对该方法进行了实验对比,实验结果显示我们方法的准确率、召回率以及F值在三个数据集上均优于现有的最好方法。(2)为了解决NSEM模型不能够提取事件表示等问题,我们提出了深度嵌入事件线抽取模型(DESEM)。该方法首先使用堆叠去噪自编码器学习初始的事件表示,之后将数据按天进行分组,在每组数据的基础上,采用聚类损失进行模型参数优化,进一步优化事件的表示,此外,我们通过一个融合层进行事件线的构建,进而能够同时进行事件表示的学习和事件线的构建。我们在三个新闻数据集上对该方法进行了实验对比,实验结果显示我们的方法的准确率、召回率以及F值在三个数据集上均好于包括NSEM在内的对比算法。此外,我们的方法能够抽取文本中事件的隐含特征,抽取的特征可以进行可视化展示以及供下游应用使用。