半监督中文事件抽取方法的研究

被引量 : 0次 | 上传用户:xiaotre
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件抽取是信息抽取的研究热点,它的研究内容是自动地从自然文本中发现特定类型的事件及其事件元素。目前,绝大多数研究侧重在有监督方法方面,只有少数针对半监督或无监督英文事件抽取的研究,半监督中文事件抽取还处于起步阶段。本文从抽取模型、事件模板和事件推理三个方面来研究半监督中文事件抽取方法,主要研究内容包括:第一,针对文档相关度方法和语义相似度方法的优缺点以及中英文之间的差异性,本文提出一种双视图自举方法。该方法结合文档相关度和语义相似度两个视图,在种子模板的基础上,通过半监督方法自动扩充种子模板。在ACE2005中文语料上的实验表明,该方法使得半监督中文事件抽取系统的F1值比原有的文档相关度方法和语义相似度方法分别提高了8.2%和3.6%。第二,针对触发词语义的多义性问题,本文提出基于语义的模板优化方法。首先借助论元进行模板过滤,提高模板的准确性,然后根据句法结构进行模板转换,提高模板的适用性,最后使用混合模板方法进一步明确触发词的语义。实验结果显示,半监督中文事件抽取系统的F1值提高了5.3%。第三,半监督中文事件抽取系统的性能依赖种子模板,但种子模板的覆盖域有限,大量的稀疏模板无法被获取。本文基于篇章内的一致性原理,提出同指事件、相关事件和武器线索推理方法,识别更多的同指关系与关联性的事件。实验证明,半监督中文事件抽取系统的F1值提高了11.1%。本文实现了半监督中文事件抽取系统并提出改进方法,实验证明了该方法的有效性,将有利于半监督中文事件抽取技术的发展。
其他文献
采用人工催产、人工授精、去巢流水孵化等技术进行泥鳅人工繁殖技术初步研究。共计催产雌鳅67尾,获卵43.79万粒,平均催产率86.1%。平均受精率81.0%,平均孵化率78.4%,平均出苗率59.2%。另还描述了泥鳅胚胎发育
<正>日本受到不景气的影响,企业纷纷删减办公室用品预算,上班族只能自行购买文具用品,而针对个人用户的文具用品零售价格,往往比法人用户的商品价格高,厂商因此更积极地开发
论述了地下环境对混凝土结构的侵蚀作用机理,指出由混凝土结构的耐久性病害而导致的损失是巨大的。在我国,混凝土结构耐久性的问题已十分严重,但目前国内对混凝土结构耐久性
基于上海地区居民与工商业用户的海量用电数据,利用大数据多维属性,采用局部线性插值法进行了异常值处理;结合数理统计、聚类等数据挖掘方法,开展了用户行为的特征分析,发掘
本论文工作主要分为两部分:第一部分是阿奇霉素通用性近红外定量分析模型的建立和更新。阿奇霉素是以红霉素为前体合成的半合成大环内酯类抗生素,其制剂有注射剂以及片剂、颗
我国正处在全面建成小康社会的关键阶段,农技推广对于实现农业现代化至关重要。但随着市场经济的发展,当前的农技推广模式出现了各种各样的问题,如何有效解决这些问题,是需要
本文从数学学科本身的特征出发,基于大学生的知识图式,从知识的本质度、贯通度、关联度和运用度4个维度建立了学生数学知识结构模型,并利用模型来分析大学生导数知识结构,探
当今21世纪,扑面而来的信息浪潮推动着经济环境、管理背景、商务方式和企业组织形式的变革。会计假设,是对其所处的客观环境在主观上的概括与假定。新的经济时代已经来临,会
探讨小儿膳食中供能营养素的比例与正常需要量。膳食中蛋白质、脂肪和糖是机体所需能量的主要来源,蛋白质是人体细胞和组织的主要组成成分,当供给的量不足或质低劣时,可致体
<正>古钱幂铸人文、山水、花鸟、日月星辰者有之,表现佛道文化者有之,但对于宇宙间重大的异常物体之发现是否也有迹可寻?如“UFO”,即“不明飞行物”,也谓“飞碟”现象.笔者
期刊