基于语义依存分析与预训练语言模型的因果关系抽取

来源 :吉林大学 | 被引量 : 0次 | 上传用户:jeego
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因果关系抽取是自然语言处理的一个重要研究方向,现有研究将因果关系抽取转化为关系分类或序列标注任务。文本中的因果关系有丰富的表达形式,对于句中的复杂因果关系和文章级因果关系,现有方法很难有效的抽取。此外,这些研究大多忽视了对因果实体间的语义关联信息的探索。针对上述问题,本文引入语义依存分析和预训练语言模型,结合深度学习的相关算法,提出了两个因果抽取模型,有效的从文本中抽取各类因果关系。具体内容如下:(1)基于语义依存图和BERT的句中因果抽取模型:针对现有的序列标注模型缺少对因果特征选择能力的问题,本文提出一个新的因果抽取模型BERT+Bi-LSTM+SDGAT+CRF。使用预训练语言模型BERT从句中获取充足的因果语义特征,引入语义依存图和注意力机制增强因果信息,弱化无用信息,得到句中每个词语的因果标签。此外,本文总结了现有公开的句子级因果数据集的特点与缺陷,重新创建并标注了一个因果类型全面的句子级数据集SCE。(2)基于语义依存分析和预训练词向量的文章因果抽取模型:为进一步研究跨句、跨段的因果类型,本文基于关系分类任务从文章中抽取因果关系。使用语义依存分析为文章补充因果实体对,使用预训练语言模型的词向量做输入,结合深度学习的基础模型从文章中抽取实体间因果关系。此外,本文自建英文文章因果数据集Doc EEC以及中文文章因果数据集Doc CEC。本文在自建的句子级因果数据集SCE和中、英文文章因果数据集Doc CEC和Doc EEC上进行了大量实验,并使用多种常见的评价指标进行验证。实验结果表明,本文提出的方法可以提升因果抽取的结果,证明了预训练语言模型和语义依存分析在强化因果语义信息方面具有优势。本文提出的句中因果关系抽取模型的F1值和准确率的分数较高,证明了该方法处理句中复杂的因果关系的有效性。此外,本文提出的文章级因果关系抽取模型在实验中达到了预期目标,证明了提出的方法能够提取跨句、跨段的文章因果关系,但文章中因果关系抽取仍是一个复杂的问题,该工作为后续的相关研究提供了方向。
其他文献
当前汽车工业正面临着智能化和电动化的变革,传统的真空伺服助力制动系统已经不能满足要求车辆先进辅助驾驶功能的各项需求。与此同时,政府机构和汽车厂商都在大力推广电动汽车的使用,这就要求制动系统能够不依赖真空源,且具备制动能量回收、主动制动等功能。在此背景下,电控制动系统迎来了良好的发展前景。随着电控制动系统的不断发展,集成式电控制动系统即1-Box制动系统受到了广泛关注。这是因为其依靠高性能的电机作为
实际工程中,诸多既存混凝土结构由于混凝土强度退化、环境作用耐久性下降、抗震设防标准提高、使用荷载改变等原因导致结构承载力和耐久性出现不同程度的降低,如何有效提升既存老旧混凝土结构的安全性和耐久性成为工程加固与改造领域关注的热点问题。近年来,FRP材料由于具有轻质高强、耐腐蚀、施工便捷等优点在结构加固与改造领域得到了较为广泛的应用,相比采用碳纤维片材,采用玄武岩纤维片材(Basalt Fiber R
目的:明确吉林省血液透析患者首次和目前血管通路的选择、建立及使用情况,分析不同血管通路的并发症情况,为临床合理选择血管通路提供一定的指导。方法:分别选取2020年8月1日-2020年11月30日在吉林大学第二医院、敦化市医院、安图县人民医院进行血液透析治疗的602例患者为研究对象。通过调查问卷,病历记载,同时结合透析患者登记本、血液透析记录单收集患者的相关资料。收集的内容包括性别、年龄、婚姻状况、
钢管混凝土的出现至今已有几十年的历史,目前已经广泛应用于城市地下空间开发、桥梁和房屋建筑等领域,钢管混凝土以其良好的受力性能以及便捷的施工工艺,在各类土建工程中发挥着越来越重要的作用。与此同时,方钢管混凝土(Square concrete-filled steel tube,简称SCFST)由于具有节点构造简单、施工便捷等优势,近年来工程应用也开始逐渐增多。但是,由于使用年限增加、使用功能改变、荷
随着中国现代城市的快速发展与智能手机的普及,城市中通信基站的部署越来越多,产生了海量的手机信令数据。对信令数据进行利用有助于我们对城市人口流量进行监控与诱导。本文对基站覆盖范围内的人口驻留量以及基站间OD流量进行预测,不同于传统方法中将城市划分为的网格的预测手段,以基站为空间粒度可以有效做到流量细化与定位,不仅有助于基站节能、基站资源调度等任务,也会大大提高了城市资源的利用率、城市的交通效率以及城
传统文化教学是高中语文教学中重要的环节之一。学生在高中阶段已开始形成相对完善的人生观和世界观,有自己的独立思考能力和判断能力,对于传统文化,可以从更深层次去理解和接受。在小学和初中阶段,学生对于传统文化的理解处于有些懵懂的阶段。高中语文教材所选编的课题和内容,是中国传统文化所包含的精粹部分,将语文教学内容与中国传统文化融合,对学生形成积极向上的民族观、国家观和文化观有积极作用。
传统的单聚类方法是依据样本的相似度,将具有相似属性或特征的样本归为一类。然而,随着样本数和特征数的大量增加,单聚类方法的时间成本变得难以想象。另一方面,大型数据集内部数据成分复杂且往往呈现稀疏性,单聚类方法不能很好地处理大型数据集的噪声干扰。基于低维数据全局搜索的单聚类方法不能很好地适应于高维数据和大型数据的聚类问题。为克服单聚类方法存在的缺陷,双聚类方法应运而生。不同于传统单聚类方法,双聚类方法
驾驶风格主要指驾驶员的驾驶习惯,多通过驾车时的行为特征进行定义。驾驶风格与智能交通、无人驾驶、保险理赔都有着千丝万缕的联系。针对现今驾驶风格识别研究多存在数据来源不真实、考虑因素不全面、无法对驾驶风格进行整体把握等问题,本文通过采集真实的驾驶数据,以工况作为驾驶风格识别的最小粒度,构建了基于半监督学习的多工况驾驶风格识别模型。主要工作如下:1.搭建驾驶风格识别数据库。通过对日常驾驶风格影响因素的深
蛋白质是生命活动的重要物质基础,也是生命活动的执行者和调控者。少数蛋白质可以在生物体中单独执行特定功能,大部分蛋白质通过与其他蛋白质之间的相互作用以复合物的形式完成其特定功能。因此,精确高效地识别蛋白质复合物对于揭示细胞组织原理和功能机制具有重要意义,且对复杂疾病的诊断与靶向治疗具有一定的指导作用。本文基于生物信息学理论与机器学习算法,对蛋白质相互作用网络中蛋白质复合物的识别问题进行了研究。目前蛋
随着科技的飞速发展,人类生活中越来越离不开身份认证和识别。同时人们对个人信息安全的问题也更加的重视,传统的身份认证如密码登陆等已经很难满足人们对个人信息安全的要求。在这种需求不断提升和计算机技术高速发展的背景下,虹膜识别技术凭借着其更高的安全性、准确性、稳定性、防伪性等特点受到了来自学术界和工程界广泛的关注。虹膜识别产品也逐渐应用到与我们息息相关的生活中,如虹膜门禁系统、虹膜签到系统、银行支付系统