基于深度学习与图注意力网络的因果关系抽取研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:zbt_25
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因果关系是自然语言文本中的一种重要的关系类型,在关系推理等许多领域中起着至关重要的作用,因此对因果关系进行抽取是文本挖掘中的一项基本任务。但目前因果关系抽取仍是一个新兴领域,并无成熟的研究体系与公开测评的数据集,现有成果均自有一套研究体系无法横向比较,是阻碍因果关系抽取取得进步的关键因素之一。此外,现有相关概念、研究方法、实验数据以及标注方法等内容均分散在各个研究中并没有系统的总结,使研究者无法获取该领域的全貌从而进行深入研究。本文针对这些方面进行全方位总结与多角度创新,提出一套新的因果关系抽取研究体系,为后续相关研究作为参考。现有主流方法多采用文本分类、关系抽取、序列标注这三种方法探究文本中的因果关系,本文着重采用序列标注的方法抽取文本中的因果实体并确定因果关系方向,不需要依赖特征工程或因果背景知识,并对其他两种方法进行补充探究。本文的主要贡献有:(1)基础概念上,本文系统总结了分散在各个研究中的相关概念与因果关系种类;(2)研究方法方面,本文总结出三大研究领域,并且全方位归纳了其他研究方法,使读者了解该领域的全貌;(3)算法模型上,我们拓展句法依存树到句法依存图,将图注意力网络应用到自然语言处理中,引入了S-GAT(基于句法依存图的图注意力网络)的概念。结合深度学习模型与SGAT提出Bi-LSTM+CRF+S-GAT因果抽取模型,根据输入的句子词向量生成每个单词的因果标签;(4)实验数据方面,本文全方位总结现有因果关系抽取相关数据集,多角度探究其实用性与拓展性。对SemEval数据集进行修正与拓展,针对其存在的缺陷制定规则重新标注,创建新的因果关系抽取数据集ESC;(5)标注方法方面,我们归纳现有因果序列标注方法并进行多角度分析,总结因果序列标注准则,提出“因果核心词”的标注方法。针对标注争议设定多种候选因果标签序列,构建E-SCIFI因果标注方法数据集,通过实验探究最优的因果标注方法。实验结果表明,我们提出的“因果核心词”标注方法在实验效果上表现最优;(6)在ESC数据集上进行了大量的实验,结果表明,我们的模型在预测准确率上比现有最优模型Bi-LSTM+CRF+self-ATT提高了6.4%,并根据其它两种因果关系抽取方法拓展本文模型,在altlex与SemEval数据集上进行补充实验,全方位探究因果关系与本文提出模型的拓展性。
其他文献
目前医院面临着各种各样的危机,作为医院的管理部门——政府对此有着义不容辞的责任。本文分析了政府介入医院危机管理的必要性,并分析了当前政府对于医院管理的现状与不足,从而
表现作为20世纪西方美术的一种普遍倾向,表现的维度在艺术家的实践中得到不断拓展:装饰的、激情的、梦幻的、抗议的、抽象的、触觉的……。在这些维度中,表现的形式以艺术家丰
在2009年,我国事业单位改革受到政府、学术界、各类企业的广泛关注,但在预算资金管理的实践过程中遇到了一些问题。为此我们提出了基于现金流的事业单位预算资金管理措施。
下文结合笔者多年的工作经验及相关的施工实践,分析了影响沥青路面乎整度的原因。高速公路热拌沥青混合料路面具有表面平整、行车舒适、噪声低、易维修等优点,工程施工中质量控
医院客户关系管理是借助信息平台,在医院内部实现信息和资源的共享,从而降低医院运营成本;借鉴CRM管理理念,树立“以病人为中心”的营销理念,为病人提供更经济、快捷、周到和
精准扶贫、精准脱贫,离不开金融支持。金融支持扶贫,有助于财政扶贫资金撬动扶贫资源,发挥滚雪球效应,从而扩大扶贫资金覆盖面,加大扶贫力度,加快扶贫进度,有利于培育特色产业、实现
学位
党的十七大把科学发展观确立为我国经济社会发展的重要指导方针和发展中国特色社会主义事必须坚持和贯彻的重大战略思想。在新形势下,机关文秘工作和相关的文档管理,要以科学
CH09W80是由八倍体小偃麦TA17047与高抗小麦白粉病品种晋太170杂交,回交选育出的抗白粉病小麦新种质。苗期对我国广泛流行的白粉菌株E09,E20,E21表现为免疫或近免疫,抗性表现与其
《马贩子的女儿》是劳伦斯的代表作之一。本文试图从弗洛伊德人格结构角度解读《马贩子的女儿》中的两性关系。男女主人公最终能冲破社会桎梏,是他们遵循本我,从而达到和谐关
调查性报道是一种以揭示真相为宗旨的报道方式,是新闻工作者针对被掩盖或者被忽视的损害公众利益的行为以及社会问题,通过独立、系统、科学、有针对性的调查而完成的。调查性