面向事件的文本知识发现与表示

来源 :上海大学 | 被引量 : 6次 | 上传用户:wang605631496
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件是人类认识和理解现实世界的基本单元,人们是以事件为单元进行思维活动的这一观点,已经被越来越多的研究人员所认可。自MUC(Message Understanding Conference)提出文本事件抽取任务以来,已经受到越来越多的关注,尤其最近几年,文本事件抽取已成为NLP(Natural Language Processing)领域的研究热点之一,深受学术界与实业界的高度重视。目前,在文本知识发现领域,传统的方法主要是以词汇、概念或短语为单元表示文本知识。这种方法存在语义信息缺失、网球问题、不能表达高层次语义以及语义推理欠缺等不足。从事件角度来看,一篇文本,特别是记叙类文本,一定程度上是人们对客观世界中一系列事件以及事件关系认知的文字表达。以事件作为文本语义知识的表示单元可以解决上述传统文本挖掘方法存在的不足,有助于文本中高层次语义信息的表示与推理。近些年来,关于文本事件的研究主要集中于事件抽取和基于事件的一些应用,文本中的事件知识是这些应用的基础。因此,本文针对互联网上的新闻文本,以事件作为文本中语义信息表示的基本单元,研究面向事件的文本知识发现和表示方法,实现对文本的语义理解,为事件本体构建和面向事件的应用提供支持。本文主要工作及创新点包括以下三个方面。(1)面向事件的文本优化标注与统计分析:在CEC(Chinese Event Corpus)1.0语料库的基础上,优化和补充了基于事件的文本标注规范,包括意念事件、事件关系与事件发生所使用的工具或方式方法等,并依照规范补充标注了这些语义信息,形成了CEC2.0语料库。从文本篇幅、事件要素与标注效果等方面对CEC 2.0进行了统计分析,结果表明CEC 2.0不仅将标注的文本篇数从200篇增加到333篇,而且其中标注的文本语义信息更丰富,CEC 2.0语料库比CEC 1.0有较大的提高。(2)事件语言表现核心词关联规则与搭配模式发现:提出了基于Apriori算法的核心词关联规则发现方法,该方法将CEC 2.0中的每一个已标注事件作为事务,核心词及其位置特征、词性特征作为事务的项,用Apriori算法进行关联规则挖掘。提出了基于语义依存分析的核心词搭配模式发现方法,该方法首先对CEC 2.0语料库中的事件进行语义依存分析,然后对语义依存树进行处理,再用PETreeMiner算法进行核心词搭配模式挖掘,最后实例验证了可以用发现的关联规则和搭配模式引导自动生成描述事件的句子,表明提出的发现方法有效。(3)事件与事件类语义表示与推理:提出了结合新戴维森方法与六要素事件模型形式化表示事件与事件类语义的方法,将事件谓词表示为仅含有事件论元的一元谓词,通过逻辑合取将其与事件六要素连接在一起表示事件与事件类语义。扩展相应的算子,给出了事件的动作、对象、环境、时态以及事件(类)关系的形式化方法,使用描述逻辑方法描述了对象要素中的概念。提出了基于事件类的事件要素缺省推理方法和基于事件类关系的后续事件推理方法,将形式化表示的事件类、事件类关系与规则作为知识库,使用规则进行缺省推理和后续事件推理,并进行了实例验证,表明所提出的事件(类)语义形式化表示和推理方法有效。
其他文献
应用苏特灵Bt生物杀虫剂防治春尺蛾,其毒力效价≥8000IU/mg,800倍液防治春尺蛾,室内72h校正杀虫率97.0%,林间72h校正杀虫率96.8%,持效期14d,杀虫率78.7%,是理想的除治春尺蛾的生物杀虫剂
名医施今墨与周恩来的交往本刊记者刘南燕施今墨是北京四大名医之一,农工党员、第二、三、四届全国政协委员。他与周恩来的交往可以追溯到五十年代初。施今墨当时是北京医院的
考虑到以往装备体系的研究方法忽略了装备之间的配合关系,基于网络科学思想,建立反导作战网络模型。阐明了反导作战能力生成机制,并基于此提出了反导装备体系作战网络能力评
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
为进一步明确肉桂精油的农用抑菌活性,采用菌丝生长速率法、孢子萌发法和活体组织法系统测试了其对番茄灰霉病菌、苹果青霉病菌、番茄茎枯病菌和黄瓜镰刀菌4种重要果蔬病原真
中国共产党的持续制度化运作形成了中国共产党党内文化,建构中国共产党党内文化的概念为我们提供了一个分析中国共产党的独特工具,这一概念包括中国共产党的意识形态、权力分