论文部分内容阅读
事件是一种描述特定人、物、事在特定时间和特定地点相互作用的客观事实(也称“自然事件”)。文本信息中的事件则指这一客观事实诉诸文字的独特语用形式,多见于新闻报告、评论或者博文中。然而,自然事件的发生往往不是孤立现象,其发生与发展往往与外在的其它自然事件有着本源的逻辑关系。从而,形成一种自动识别和检测事件关系的自然语言分析和信息处理机制,对于面向大规模信息流中的离散事件,实现话题推演和话题预测,有着重要的辅助作用。本文针对事件关系检测这一新的研究领域中涉及的相关任务展开了探索性的研究,论文的主要内容归纳如下:基于跨实体推理的事件抽取方法研究事件抽取作为事件关系识别的基础任务,旨在把含有事件信息的非结构化文本以结构化形式呈现。本文根据“相同类型的实体经常出现在类似的事件中并充当类似的角色”这一语言现象,提出一种新的基于直推式学习思想的事件抽取方法,跨实体(cross-entity inference)事件抽取。相比于其它直推式学习方法,本文提出的方法取得了明显的性能提升。基于语义依存线索的事件关系识别方法研究面向自由文本,采用事件抽取方法抽取出其中蕴含的事件流。以事件为基本语义单元,通过分析事件的语义依存关系及其在演化过程中的语义依存规律,提出基于语义依存线索的事件关系识别方法。方法通过构建事件的语义依存线索集合,实现事件语义关系的浅层检测。基于核心词和实体的事件关系识别方法研究在通过依存线索分析构建事件推理线索过程中,大量事件的依存线索较为稀疏。因此,本文从另外一个角度展开讨论,即利用事件的核心词和实体在相关事件和不相关事件中的分布特性,将事件的相关性与否问题转化为事件核心词之间的相关性和事件实体之间的相关性计算问题。方法充分利用事件核心词相关性和实体相关性表征事件之间的相关性,较基于语义依存线索的事件关系识别方法,该方法在召回率上获得了15.34%的性能提升。基于语义依存线索的事件关系识别方法以及基于核心词和实体的事件关系识别方法在构建事件的推理线索时均存在一定程度的线索稀疏问题。通过分析发现,两种方法在解决事件关系识别问题上各有所侧重。因此,本部分工作融合上述两种事件关系识别方法,形成一种融合的事件关系识别方法,称之为基于推理线索构建的事件关系识别方法。实验结果显示,融合的方法能够极大丰富推理线索,很好的解决了推理线索稀疏问题。