基于全局到局部网络与知识注入的文档级关系抽取模型研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:kouton
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取旨在识别文本中命名实体间的语义关系,是信息抽取任务的重要组成部分,有着重要的研究和应用价值。虽然之前的工作聚焦于抽取句子内实体间的语义关系,近年来的研究将该任务上升到了文档级别,即文档级关系抽取任务,该任务需要抽取系统能够对文档内的所有实体及其提及进行复杂的推理,包括逻辑推理、共指推理、常识推理等。为了解决现有方法的局限性,本文提出了两个基于深度学习的文档级关系抽取模型:(1)相比句子级关系抽取,文档级关系抽取需要建模文档中更加丰富的语义信息,需要依靠实体的多个位于不同句子的提及来建模实体间复杂交互,但现有工作在提及信息利用上仍存在较多缺陷,因此本文提出了一种新的基于全局到局部神经网络的文档级关系抽取模型即GLRE,该模型综合利用实体的全局表示、实体的局部表示以及上下文关系表示来编码文档信息。实体全局表示对文档中所有实体的语义信息进行建模,实体局部表示针对具体实体对聚合特定实体的多个提及上下文信息,上下文关系表示利用上下文关系对文档的主题信息进行编码。实验结果表明,该模型在文档级关系抽取的两个公共数据集(Doc RED、CDR)上均取得了较好的性能,相较对比方法的最优结果其F1值分别在Doc RED、CDR上提高了3.4、5.4,其在对长距离实体对和多提及实体对的关系抽取上有较好表现。(2)文档级关系抽取需要依靠基于实体及其提及的共指推理和基于额外常识的常识推理,这两类推理的处理需要额外知识的支撑,因此本文提出了一种面向文档级关系抽取的实体驱动的知识注入模型即KIRE,该模型通过多任务学习的方式,将知识图谱和预训练共指消解模型中的知识(涉及共指三元组事实、实体的属性三元组事实和关系三元组事实)引入到现有关系抽取模型中,以此提升任务效果。针对共指三元组事实,采用基于知识蒸馏的方式将共指知识引入到关系抽取模型中。针对实体三元组事实,依次对实体的属性三元组和关系三元组进行语义编码得到基于知识图谱的实体表示,并利用融合重构的方式将学得的实体表示融入到关系抽取模型中。在Doc RED、DWIE数据集上的实验结果表明,KIRE能同时适用于基于图和基于序列的文档级关系抽取模型,并能够普遍提升抽取模型的效果,其F1指标提升幅度可以达到2.62。
其他文献
学位
基于电流体动力学现象发展的静电喷雾是一种形式简单,易于调控的雾化技术,具有以超低能耗获得大量微/纳米级液滴群的独特优势,可显著改善液体的雾化性能,提高多相流动的传热传质效率,其在微/纳米颗粒或薄膜制备、生物制药、微型燃烧、喷雾冷却、空间微动力推进等领域的应用价值日益凸显。关于静电喷雾的研究大都聚焦于所谓的锥射流模式,但要想通过稳定锥射流雾化获得单分散性良好的微/纳米级液滴,就必须控制供应流量在极小
锂硫(Li-S)电池作为新型二次电池具有比容量高、环境友好、原材料储量丰富、成本低等优势引起了国际科研工作者的广泛关注,是下一代储能器件的理想选择。但其在面临商业化时仍存在活性物质导电性极差、反应前后的“体积效应”、反应中间产物的“穿梭效应”及锂枝晶生长等制约瓶颈。针对以上问题,对Li-S电池隔膜改性展开研究,高效提升电池电化学性能。金属有机框架(MOFs)作为一类新型纳米多孔材料,由于它拥有比表
紫花苜蓿(Medicago sativa L.)是新疆第一大栽培牧草,其对新疆草牧业可持续发展和生态环境建设起着重要作用。新疆春秋气温低且不稳定,夏季高温炎热,因此,温度胁迫严重限制了新疆紫花苜蓿产业的发展。光合作用是植物生长发育的基础,更是农牧作物产量的基础,但高等植物光合作用对环境胁迫非常敏感。紫花苜蓿生长发育过程中所遭遇的高温或低温胁迫严重影响苜蓿叶片的光合作用,从而影响紫花苜蓿的生长发育及
随着科技的进步和人类认知的不断加深,复杂网络也引起了越来越多研究者的兴趣.我们研究了与细分图相关的几种不同的构图方式.第二章是在多重细分图的基础上做线图的操作,构造了迭代的多重细分线图.第三章是对多重细分图中新顶点之间,以不同的方式连接它们,构造了异源或同源的多重细分图.第四章是在第三章的构图基础上对异源的双重细分图做迭代操作,得到了迭代的异源双重细分图.我们计算了这几种图形的拉普拉斯矩阵特征值,
煤基燃料聚甲氧基二甲醚(PODE)和甲醇作为内燃机替代燃料,因含氧量较高且性能优异,受到国内外学者的广泛研究。由于两种燃料性质截然不同,一种以缸内直喷PODE引燃进气道预混甲醇的双燃料燃烧模式逐渐备受关注,可以实现缸内低温预混燃烧,有效改善发动机燃烧过程和排放特性。在大负荷下,PODE/甲醇双燃料燃烧模式面临着甲醇自燃而导致爆震产生的风险,发动机运行负荷范围难以进一步拓展,这类异常自燃现象发生的边
近年来,随着无线通信和传感器技术的发展,普适计算已经深入到了我们的日常生活中。例如,智能手机上的某些应用程序会利用手机上搭载的各类传感器感知用户所处环境的上下文信息,并利用这些信息自适应地改变自身行为,为用户提供更好的服务。理论上,准确无误的环境上下文信息能够帮助应用程序提升用户体验,但是,考虑到传感器的感知过程极易受到环境噪声的影响,感知的上下文信息很有可能是不准确的或者是相互冲突的,造成上下文
随着社会发展和时代更迭,突发公共卫生事件时有发生,因为其具备突发性、公共性、破坏性等特征,且往往伴随着社会失序和人民生命健康安全受损的严重后果,我们不得不重视对其进行的预防和控制工作。而在针对突发公共卫生事件的应对中,政府信息公开承担了重要的角色。在最短的时间内将重要信息公开,整合防控力量,以强有力的措施对事件进行有效干预已成为全世界的共识。2020年年初的新冠肺炎疫情再一度给我国乃至世界带来警示
新型材料性能各异,服役环境复杂,其材料性能测试面临新的挑战。引伸计是材料力学性能测试的重要工具之一,为材料的实际应用提供有力的数据支撑。传统的接触式引伸计安装复杂、受到使用环境限制;非接触式引伸计测量精度低、跟踪算法不稳定。本文以实现高精度高效率的应变和位移测量为目标,从视频引伸算法的计算精度、计算效率、硬件设计三方面出发,优化了匹配算法的计算过程和迭代策略,设计搭建了稳定成像的硬件系统。本文的主
日前,移动电子设备和电动车的发展日新月异,锂二次电池作为一种能量存储元件而备受瞩目。有机液体电解质因具有超高的离子传导性,可以使锂离子在正负极之间穿梭自如而被普遍使用,然则,有机液态电解质所存在的问题及安全隐患却难以解决,例如:液态电解质易发生泄露挥发、与锂金属易发生副反应产生易燃易爆物质、锂树枝状晶体生长可刺穿隔膜等。开发高能量密度、高安全性的固态电解质来代替有机液态电解质已引起了各方研究者的兴