论文部分内容阅读
事件因果关系识别在自然语言处理领域中是一个重要的研究课题。作为一种重要的语义关系,事件因果关系可以将事件按照因果逻辑组织成事件图谱,通过在事件之间进行因果推理来辅助人类进行决策,可应用于事件预测、舆情监控等场景中。现有关于事件因果关系识别的方法可以分成三类:基于模式匹配的方法、基于统计机器学习的方法、基于深度学习的方法。前两种方法受限于特征工程繁琐和模型表达能力不足等问题,对于隐式因果关系的识别效果不佳。而基于深度学习的方法得益于神经网络的强大表达能力,往往可以捕捉到隐式因果关系的表达模式,但这类方法大多关注于一因一果式的句子内因果关系识别或者相邻句子之间的短距离跨句子因果关系识别,难以适用于更加复杂的场景,如多重因果关系和长距离跨句子因果关系识别。针对现有方法存在的不足,本文提出了一种基于关系图卷积网络的文档级事件因果关系识别方法DocEC,通过将句子级任务拓展成文档级任务,在兼顾句子内因果关系的同时也能应对短距离、长距离跨句子因果关系,进而解决多重因果关系。具体来说,DocEC以文档作为输入,通过构建两个不同的异构文档图,即文本结构图和提及关系图,并采用关系图卷积网络对文档图进行建模,捕捉全局信息,其中文本结构图主要捕捉包括层次、序列、语法等结构信息,提及关系图主要捕捉提及之间的潜在关联信息。在实验部分,本文在两个不同的数据集上进行了因果关系识别对比实验,通过DocEC与基准方法的对比结果可以验证DocEC的有效性。同时,为了验证因果关系识别方法对于因果关系方向的敏感程度,本文进行了因果关系方向识别对比实验,通过该实验再次验证了DocEC的有效性,也从侧面说明了因果关系方向识别任务更具挑战性。除了与基准方法进行实验对比外,本文还对DocEC中所设计的各个模块,以及文档图中不同类型的边进行了分离实验,通过分离实验的结果说明了DocEC的合理性,模型中各个部分均发挥了不同程度的作用。在应用部分,本文对DocEC进行了实际应用,设计并实现了一个新闻事件分析原型系统,其支持若干交互功能,以方便用户对新闻进行查看与分析。