复杂环境下的文本关系抽取研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:harryvincent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网文本数据量的爆炸式增长,从海量的文本数据中自动化地抽取浓缩的结构化知识变得日益重要。关系抽取是信息抽取的关键技术之一,在众多自然语言处理下游任务中都具有非常重要的作用。目前的研究工作主要集中在理想化环境下的关系抽取,然而实际环境中存在许多复杂的问题。其一,目前实验室环境大多会给予实体等先验信息,在给定实体的情况下抽取其中的关系,然而由于实体标注工作异常复杂,往往出现实体信息缺失的环境;其二,目前的研究大都集中在句子级别的关系抽取,然而实际篇章级文本环境更为常见,其存在大量的跨句子隐含关系;其三,复杂环境并不会单一存在,实体信息缺失的问题也会出现在篇章级环境中,其环境更加复杂与困难。针对上述三种复杂环境,本文分别进行如下工作:(1)针对句子级别的实体信息缺失环境,提出了基于翻译机制的句子级实体关系联合抽取方法。针对以往流水线模型存在的误差传递与忽略子任务之间交互特征的问题,本文将文本视为源语言,不同关系下的实体对视为目标语言,通过基于注意力机制的编码器-解码器框架实现两者之间翻译,将两个子任务统一在同一框架下,解决了误差传递问题,并充分考虑子任务之间的交互。同时,不同关系之间同样存在交互特征,本文将不同关系共享模型参数,共享底层特征,学习不同关系之间的共享交互信息。本文在NYT公开数据集上与同期模型相比,证明了本文模型的有效性。(2)针对篇章级文本环境,提出了基于异质图网络的多层次篇章级关系抽取方法。现有的关系抽取方法大都是基于句子级环境下,无法应用于篇章级环境。本文根据实体的共现关系、共指关系、语义依赖关系等先验知识构建图网络,减少了篇章级文本中的噪音,缩短实体之间的距离,为模型提供推理结构。单词层级、实体提及层级与实体层级的层级分化能够为模型带来更多的细粒度信息,实体提及聚合带有上下文的细粒度单词信息,实体通过注意力机制聚焦于重要的实体提及。本文在Doc RED公开数据集与同期模型相比,证明了本文模型的有效性。(3)针对实体信息缺失的篇章级文本环境,提出了基于多任务学习的篇章级实体关系联合抽取方法。复杂环境并不单一存在,本文将两种复杂环境进行融合,提出了实体信息缺失的篇章级环境问题。本文通过多任务学习的方式将此问题所包含的实体提及识别子任务、实体提及聚类子任务、关系抽取子任务统一在同一框架下,以端到端的方式实现篇章级的实体关系联合抽取。同时,本文所提的基于余弦相似度的实体提及聚类模块,能够有效聚类同一实体具有不同表现形式的实体提及。本文通过实验证明了本文模型在此复杂环境下的有效性。
其他文献
恶意代码是目前互联网安全的主要威胁之一,它以数量的爆炸式增长和自我保护技术的不断提高严重威胁着人们的经济利益,因此如何高效地进行恶意代码检测具有非常重要的意义。静态分析技术检测准确率高,但是容易受到加壳、混淆技术的影响。动态分析技术通过分析代码运行时的真实行为来判定是否为恶意样本,避免了加壳、混淆技术的障碍,但是准确率有待提升。基于以上问题,本文从动态分析入手,将API序列作为研究对象,从两个不同
随着计算机技术和信息技术的飞速发展,我国桥梁工程逐步向信息化转型。桥梁BIM设计技术日趋受业内关注。但目前在桥梁BIM技术应用中存在一些问题:BIM技术核心建模软件Revit中对于桥梁的构件族库尚未完善,桥梁构件复杂,种类繁多,使得桥梁模型创建效率低下,无法保证设计质量,满足项目需求。同时,桥梁工程模型数据量级过大,不利于在中心平台进行协同交流。在此背景下,本文基于BIM技术,对桥梁工程信息模型进
视觉目标跟踪多年来一直是计算机视觉领域中的基本研究问题,在自动驾驶、智能交通监控、无人机侦察等领域中具有重要的应用价值,受到国内外学者的广泛关注。目标跟踪任务即给定视频图像中的目标,在后续视频帧中推理出目标位置和大小。在目标跟踪过程中,目标外观会由于尺度变化、形变、遮挡等因素影响发生显著变化。如何在这些因素的影响下准确跟踪目标,是跟踪方法研究中的核心问题。随着深度学习技术和注意力机制在计算机视觉领
进入信息时代,高校教职工因公出国访问需要通过管理系统进行填报申请,虽然这项业务办理的自动化流程提高了因公出访活动的效率,但是却没有对这一部分出访数据进行分析与挖掘,丧失了数据的价值。除此之外,现阶段也缺乏对教职工因公出访活动的评价体系,没有统一的量化标准就没有办法提高教职工因公出访活动的质量水平。所以本文基于这两个痛点研发了高校教职工因公出访数据分析系统,通过设计评价算法量化研究教职工因公出访活动
临近空间太阳能无人飞艇为实现长航时、大载荷的飞行,对光伏储能系统提出了更高的要求。光伏储能系统的作用是完成光伏电能转换,电能存储以及功率输出等。为了实现光伏的能量最大化利用和对储能电池更直接的管理,本文采用光伏-储能一体化的设计方案,通过光储模块构建无人飞艇直流微电网能源系统。对于这样的系统,尤其是特殊的应用需求,对变流器的功率密度、工作效率具有更高的要求。因此,本文围绕如何有效提高光储功率模块的
随着信息技术及移动终端的普及,网络购物因其良好的购物体验备受全民青睐。网络购物的快速发展给物流配送企业带来了极大的压力,逐渐暴露出配送超时、快递丢失、货品损坏等诸多问题。如何使末端物流配送体系更加完善,提升客户的服务体验俨然成为整个行业亟待解决的问题。而定制化服务的出现成为解决末端配送瓶颈问题的突破口,受到企业和客户的重点关注。鉴于此,本文充分考虑客户的选择权,在客户选择配送模式和配送时间的基础上
操作系统自主可控是国家突破“卡脖子”计算机核心技术难题的关键举措。作为当前主流操作系统之一的Linux系统由于其开源性特征,在我国操作系统自主可控方面具有广泛的研究价值和应用前景。不过,Linux存在缺乏设计文档及系统难以了解、再开发和维护的问题,因而Linux源码分析及逆向工程是其基础前提。汇编代码是Linux内核源码重要组成部分,但相比于对C语言源码的分析,汇编源码的分析研究及工具要薄弱许多。
近几年,世界各国及车企纷纷开始转向环境友好型新能源汽车的研发道路,电动汽车的市场占有率及保有量达到新高。各个车企的新型高压动力电池组层出不穷,这种高压电池技术在实现电动汽车超级快充的同时,也对车载辅助供电电源系统中的DC/DC变换器提出了宽范围、高频、高功率密度以及扁平化的要求。第三代宽禁带半导体器件因具有低导通电阻和高电子迁移率的特性,非常适合用于1000V以下高频、高功率密度电力电子变换器的设
在土木工程领域,钢筋混凝土材料应用广泛。研究尺寸效应规律对修正现行基于小尺寸试验研究结果的钢筋混凝土结构设计理论与方法具有重要意义。试验研究表明,钢筋混凝土构件抗弯性能存在尺寸效应现象,然而经典连续介质理论无法解释该现象。Cosserat理论基于连续介质力学的方法,考虑了组成物体的颗粒的微尺寸对构件宏观性能的影响,能够解释构件的尺寸效应现象。因此本文基于Cosserat理论对钢筋混凝土构件抗弯性能
自21世纪初以来,资源、能源和生态已经成为可持续发展的中心主题,并日渐引起大众的重视,资源稀缺和环境污染等问题日渐严重,越来越多的国家意识到再制造活动对于社会经济可持续发展的重要性。回收再制造已经成为当下制造企业实现经济可持续发展必不可少的一种手段。目前,全球的3C产品产量和存量急剧上升。我国既是3C产品生产大国,同时也是拥有最多3C产品废弃量的国家之一。然而,目前我国制造企业的废旧品回收再制造流