论文部分内容阅读
事件是人类认识和理解现实世界的基本单元,人们是以事件为单元进行思维活动的这一观点,已经被越来越多的研究人员所认可。自MUC(Message Understanding Conference)提出文本事件抽取任务以来,已经受到越来越多的关注,尤其最近几年,文本事件抽取已成为NLP(Natural Language Processing)领域的研究热点之一,深受学术界与实业界的高度重视。目前,在文本知识发现领域,传统的方法主要是以词汇、概念或短语为单元表示文本知识。这种方法存在语义信息缺失、网球问题、不能表达高层次语义以及语义推理欠缺等不足。从事件角度来看,一篇文本,特别是记叙类文本,一定程度上是人们对客观世界中一系列事件以及事件关系认知的文字表达。以事件作为文本语义知识的表示单元可以解决上述传统文本挖掘方法存在的不足,有助于文本中高层次语义信息的表示与推理。近些年来,关于文本事件的研究主要集中于事件抽取和基于事件的一些应用,文本中的事件知识是这些应用的基础。因此,本文针对互联网上的新闻文本,以事件作为文本中语义信息表示的基本单元,研究面向事件的文本知识发现和表示方法,实现对文本的语义理解,为事件本体构建和面向事件的应用提供支持。本文主要工作及创新点包括以下三个方面。(1)面向事件的文本优化标注与统计分析:在CEC(Chinese Event Corpus)1.0语料库的基础上,优化和补充了基于事件的文本标注规范,包括意念事件、事件关系与事件发生所使用的工具或方式方法等,并依照规范补充标注了这些语义信息,形成了CEC2.0语料库。从文本篇幅、事件要素与标注效果等方面对CEC 2.0进行了统计分析,结果表明CEC 2.0不仅将标注的文本篇数从200篇增加到333篇,而且其中标注的文本语义信息更丰富,CEC 2.0语料库比CEC 1.0有较大的提高。(2)事件语言表现核心词关联规则与搭配模式发现:提出了基于Apriori算法的核心词关联规则发现方法,该方法将CEC 2.0中的每一个已标注事件作为事务,核心词及其位置特征、词性特征作为事务的项,用Apriori算法进行关联规则挖掘。提出了基于语义依存分析的核心词搭配模式发现方法,该方法首先对CEC 2.0语料库中的事件进行语义依存分析,然后对语义依存树进行处理,再用PETreeMiner算法进行核心词搭配模式挖掘,最后实例验证了可以用发现的关联规则和搭配模式引导自动生成描述事件的句子,表明提出的发现方法有效。(3)事件与事件类语义表示与推理:提出了结合新戴维森方法与六要素事件模型形式化表示事件与事件类语义的方法,将事件谓词表示为仅含有事件论元的一元谓词,通过逻辑合取将其与事件六要素连接在一起表示事件与事件类语义。扩展相应的算子,给出了事件的动作、对象、环境、时态以及事件(类)关系的形式化方法,使用描述逻辑方法描述了对象要素中的概念。提出了基于事件类的事件要素缺省推理方法和基于事件类关系的后续事件推理方法,将形式化表示的事件类、事件类关系与规则作为知识库,使用规则进行缺省推理和后续事件推理,并进行了实例验证,表明所提出的事件(类)语义形式化表示和推理方法有效。