面向事件的知识处理研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:axrczx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以“事件”作为知识表示的基本单元和信息组织的重要手段,已经受到越来越多的重视。研究面向事件的知识,可以为自动文摘和问题回答系统等信息处理技术提供服务。本文主要从面向事件的中文语料库构建、事件识别、事件要素识别以及事件因果关系抽取等四个方面进行了深入的研究,并针对以往研究中存在的不足,提出了一些切实可行的解决办法,具体包括:1.语料库建设是自然语言处理技术中的基础性的研究工作,由于研究的目的和研究的对象不相同,现有面向事件的语料库分别采用了不同的标注体系。这些标注体系主要关注某些特定类型的事件或事件要素,但是却忽略了一般意义上的事件以及人们对于事件的理解和认知。本文以调查问卷为基础,了解和分析了人们对于通常意义上的文本中的“事件”概念的理解,研究了中文事件的可标注性,提出了一种中文事件语料库的制作方法。该方法并不局限于标注某几类事件,而是针对文本中所有提及的事件。而且,该方法是建立在中文句法分析和语义分析基础之上的,符合中文的特点。评测实验表明,采用该方法标注得到的语料可以取得较高的一致性。我们还开发了一个标注辅助工具,收集了200篇突发事件领域的新闻报道作为生语料并对其进行了标注,制作了一个中文事件语料库(Chinese Event Corpus, CEC)。整个语料库的加工制作过程历时10个月,先后有近十人参与。与ACE和TimeBank语料库相比,CEC语料库的规模虽然偏小,但是对事件和事件要素的标注却最为全面。2.事件识别是事件抽取任务的基础,目前的事件识别大多采用了机器学习的方法,这种方法需要发掘有效的特征以提高识别效果。本文提出了一种基于多种特征融合的事件识别方法,在构造特征向量时,加入了上下文特征、词性特征、句法特征以及语义特征等等。在两种不同的分类器上对这些特征的区分能力分别进行了实验和分析,实验表明,随着有效特征的加入,事件识别的效果明显提高,而将多种特征融合在一起时,事件识别的效果最好。与基于tf×idf的事件识别方法相比,本文方法可以取得更好的识别效果。3.采用监督(分类)学习的方法识别事件要素,需要大规模人工标注的熟语料库作为训练集以获取事件要素的相关知识,对语料库的依赖性比较强,常常会因为语料稀疏的问题导致效果不理想。本文提出了一种基于半监督聚类和特征加权的事件要素识别方法,以减少对于语料的依赖。该方法利用少量的标记数据作为Seed集指导聚类,并且在聚类分析中根据不同特征的贡献分别赋予相应的权值。此外,本文还对传统的半监督聚类算法(Constrained-KMeans)和特征加权算法(ReliefF)进行了改进,使之适用于事件要素识别任务。实验表明,该方法在带标记语料较少的情况下具有一定的优势,可以取得相对较好的识别效果。4.事件因果关系是非常重要的一类语义关系,从文本中抽取事件因果关系具有广阔的应用前景。传统的事件因果关系抽取方法只能抽取显式带标记的、句内的一因一果关系。实际上,文本中除了包含上述因果关系之外,还包含了大量的无标记因果关系、跨句/跨段因果关系以及一因多果、多因一果和多因多果等。针对这种不足,本文提出了一种基于层叠条件随机场的事件因果关系抽取方法,该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系。第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界。语料分析和实验表明,本文方法不仅可以有效覆盖文本中的各种因果关系(包括:带标记/无标记因果关系、句内/跨句/跨段因果关系以及一因一果、一因多果、多因一果和多因多果等),并且均能取得较好的抽取效果。
其他文献
近几年,随着科学技术发展与社会的进步,从而进一步加快了我国电力行业的发展,传统的电能表难以满足当今时代的发展的各种需求。但是,智能化电能表的出现能够解决传统电子式电能表
当前,电力企业的信息化业务已经全面展开,相应系统的数量也在与日俱增,IT机房的空间以及相关资源变得逐渐紧张,这无疑会给运维管理带来新的挑战;虚拟化技术给电力企业优化服
随着互联网的普及与发展,网络团购作为一种新型的网络购物方式已经得到了大众的认可。本文分析了我国网络团购的现状及存在的问题,并深入分析了我国网络团购的几种模式及各自
为了推动学科建设,突破传统的教学模式,我院建立了人体生命科学馆。通过神奇的生命、脆弱的生命及和谐的生命3个篇章的展出,达到满足教学,促进学生自主学习,结合临床促进科学研究
为掌握60Co-γ辐射对园林植物—大花秋葵和锦葵的辐射诱变效果,采用不同剂量60Co-γ射线分别对大花秋葵和锦葵种子进行辐射处理,并用穴盘播种,测定2种园林植物种子的发芽率、
目的:从X线方面探讨隔疝的诊断及与先天性肺囊性病变,金葡菌肺炎、膈上巨大食管憩室和外伤性胸壁、腹壁疝的鉴别诊断.另外,还讨论外伤性膈疝的特殊类型-心包纵隔疝的X线诊断.
近年来,国内成品油销售市场进一步开放,竞争主体数量增加、实力增强、价格竞争常态化,油品需求持续低迷,"互联网+"对传统商业模式带来冲击,成品油零售经营面临前所未有的经营
目的:探讨喉外伤的急救和护理经验.方法:密切观察呼吸变化,保持呼吸道通畅;建立有效的静脉通道;做好术前准备、呼吸道护理、饮食护理、心理护理及特殊患者的护理.结果:2例患
近年来,随着电子工业、化学工业、薄膜及冷冻干燥行业的蓬勃发展,越来越多的行业要求有清洁的、没有油蒸汽存在的真空环境作为其生产基础,因此市场对性能优异的罗茨泵的需求
机器人是一种典型的机电一体化设备,广泛应用于工业生产、太空和海洋探索、国防技术等领域。在固体火箭发动机壳体制造过程中,壳体内壁粘有脱模剂,需要打磨掉后再进行下一工