基于注意力循环卷积网络的关系提取研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:wq123sd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来,涌现出大量蕴含丰富语义信息的非结构化文本数据。为了应对海量数据的挑战,关系提取与知识图谱成为自然语言处理领域的重要研究话题。通过关系提取辅助知识图谱的构建,从而实现海量数据的重构,具有重要的现实意义。本文针对关系提取网络中存在的不足,进行了相关研究工作。第一,由于句子结构复杂多样,现有的关系提取网络抽取句子特征的能力明显不足,因此,在特征抽取阶段如何充分学习句子中潜在的关系特征是当前的研究重点。第二,通过远程监督自动构造数据集的方法虽然大大减少了人工标注的成本,但是存在关系标签的错误标注问题,因此缓解远程监督的错误标注对关系提取的影响具有重要的实际意义。针对以上存在的问题,本文围绕构建新型关系提取网络模型展开研究,并取得了一定的成果。本文主要的研究内容与创新工作如下:(1)针对有监督关系提取任务中句子依存树的信息利用率低和特征提取效果不佳的问题,提出一种基于自注意力引导的门控感知图卷积网络模型。首先,利用一种作用于依存树的基于自注意力机制的软剪枝策略,通过自注意力机制为依存树中的边分配权重,以挖掘依存树中的有效信息,同时过滤无用信息。其次,构建一种门控感知图卷积网络结构,通过门控机制增加特征感知能力,以获取更鲁棒的关系特征,同时结合依存树中的局部特征与非局部依赖特征,进一步提取文本中的关键信息。最后,将关键信息输入分类器得到关系类别标签。实验结果表明,相较于原始的图卷积网络关系提取模型,所提模型在Sem Eval2010-Task8数据集和KBP37数据集上F1值分别有2.2个百分点和3.8个百分点的提升,能够更充分的利用有效信息,提升了模型的关系提取能力。(2)针对关系提取任务中远程监督方法导致的大规模训练数据存在错误标签的问题,提出一种融合多层次注意力的循环卷积网络关系提取模型。首先,利用循环卷积神经网络进行句子特征编码,获取句子中的全局时序性相关特征与局部相关特征,以充分学习句子中的潜在语义特征。其次,在池化操作之后构建一种分段注意力机制,通过计算句子中每一部分与关系向量的相关程度为其分配相应的权重信息,从而得到注意力加权的句子特征表示。最后,针对每个包中错误标签数据的不平衡性,应用一种跨包级的句子注意力机制为相同关系标签下的实例动态分配权重,选择性的关注有效实例,实现对噪声标签的有效抑制。总的来说,提出的模型不仅能够获取更加丰富有效的句子语义特征,而且可以充分利用大规模数据中的有效实例,捕获数据中更全面的特征信息,提升模型的关系提取效果。(3)为了验证本文所提出的关系提取方法在中文文本中的可用性,本文基于所提出的方法搭建了一个应用于中文关系提取任务的网络模型。首先针对远程监督获取的中文数据集进行预处理操作,以实现中文文本的标准化。然后,利用双向长短期记忆网络学习中文文本的序列特征,并将门控感知结构应用于卷积神经网络作为特征抽取器,以捕获更全面的句子特征表示。最后,针对远程监督中文数据中存在的错误标签问题,利用跨包级句子注意力实现中文文本关键特征的识别与提取。将搭建好的网络模型在中文数据集上进行训练,取得了不错的效果,并试图将训练好的模型部署到具体应用中。实验结果表明,本文设计的关系提取网络模型在中文人物关系识别中有良好的表现。
其他文献
随着深度学习的高速发展,越来越多的跨领域学科正在相互结合以便更有效的解决存在的问题,利用深度学习方法的医学影像技术在医学诊断中有着不可或缺的作用。其中医学图像分割作为医学影像技术的一个重要研究方向,对病理分析、临床诊断和后期手术方案的制订起着重要意义。其中人体腹部CT影像是腹部器官疾病的诊断依据,而肝脏作为腹部最大的器官,对人类的生命健康起了至关重要的作用,肝脏功能的异常与很多疾病有着密切的联系,
近年来,“平面设计”的命名变更为“视觉传达设计”,意味着学科的发展不局限于视觉的形式和承载的媒介,转向更注重传达本身。这是由于在信息爆炸时代下信息传播的渠道和方式发生了变化,传统视觉识别已经逐渐难以满足大众的生理和心理需求。这需要设计师积极探索新的视觉识别形式,而科学技术的进步也为视觉识别设计的革新制造了机会,将其推向了创新驱动、技术助力的新局面。生成艺术是通过计算机代码生成艺术作品的创作形式,它
特定目标情感分类是自然语言处理的重要研究方向之一,其旨在准确判别句子中目标实体的情感极性,由于目标实体的情感极性依赖于句子上下文语境中某些表达目标情感的情感特征词,通过挖掘目标实体与句子上下文的语义情感联系,从而找到与目标实体相关的情感特征词;虽然特定目标情感分类模型在过去的几十年研究中已经有了极大的发展,但仍存在无法充分挖掘目标实体与情感特征词的关联,以及准确判别包含多个目标的句子中的目标情感极
将同一个场景下的不同模态传感器得到的图像进行融合,得到一张包含多源信息的融合图像,此类任务称为图像融合任务。其中红外图像与可见光图像融合是一个重要的课题。红外图像可以根据热辐射的差异将目标与背景区分开来,在白天或者黑夜的所有时间和各种天气条件下,红外图像都能很好地发挥作用。相反,可见光图像可以以与人类视觉系统一致的方式提供具有高空间分辨率和清晰度的纹理细节。图像融合领域如今已经有了大量成熟的方法,
在一些化工间歇如注塑机注塑速度控制过程中,通常需要在有限的运行时间内执行一些重复性操作,近年来如何利用系统重复运行的信息改善系统性能的控制问题引起了广泛关注。迭代学习控制是有效解决此类控制问题的方法之一,其关键思想是通过先前批次的误差信息不断优化控制输入从而实现高精度跟踪的控制目的。针对实际生产中常见的状态时滞系统,本文进一步考虑系统运行中存在的不确定性对跟踪性能的影响,通过建立状态时滞不确定模型
在智慧博物馆建设的背景下,物联网、大数据、云计算、移动互联网和人工智能技术为博物馆文化资源的开发、传播、保护和管理提供了技术支持和更多的方法。博物馆不仅承担着文化展示的作用,也发挥着对观众的教育职能,以丰富的馆藏文化资源和开放式的展示环境,对儿童教育起到了举足轻重的作用。特别是博物馆多样化的教育形式、内容和展示方式,带给儿童在多维视角上的文化认识和文化体验方式的变化。本文从体验设计的角度,探索如何
随着机动车日益增加,环境污染、交通拥堵、交通事故是当今乃至以后世界各国发展路上所需要面临的难题。作为解决此难题的重要方法之一,智能交通系统登上了历史的舞台。作为智能交通系统的重要研究内容,多自主车辆队列的优点在于可以有效降低油耗、提升乘客的乘坐体验、增加道路通行量等,这些优点让多自主车辆队列正逐渐成为控制领域及交通领域的研究热点。其目的是在保证安全的前提下,通过车载传感器、车与车通信以及控制算法让
民族服饰折射一个民族的文化,同时也是宝贵的文化遗产。满族的民族服饰文化极具民族色彩,有着很高的文化价值。对于这些传统工艺美术资源,如何能够挖掘其文化内涵并进行保护与传承,并在当代语境及社会背景下重新焕发出生命力,从而让更多人真正了解和喜爱优秀传统文化,是值得深入探究的课题。在本文的研究中以满族服饰的装饰语言作为研究中心,同时进行文献研读与实地调研,以其做为研究基础,灵活运用历史资料研究法、文献剖析
不平衡数据的分类问题一直是机器学习与数据挖掘的共同课题。在传统的学习过程中,分类器大多在不平衡比例接近1的数据集上进行分类研究。然而在实际应用中,数据集的不平衡比例往往较大,分类器为了降低判别损失率,在分类过程中就会偏向多数类样本,从而影响分类结果。随着研究的不断深入,许多针对不平衡数据的算法被提出,有效降低了数据不平衡性对分类器性能的影响。本文从数据层面的算法入手,对不平衡数据的分类问题进行研究
卷积神经网络(Convolutional Neural Network,CNN)在图像特征学习领域取得卓越的成就,已经成为解决图像分类、图像降噪、目标识别、图像分割以及其它充满挑战的计算机视觉任务的主流方法。从将网络层简单相连的逐层连接的网络结构,到支持跨层间连接结构的残差网络结构(Res Net),到密集连接的密集网络结构(Dense Net),再到Google Net宽度网络结构,网络结构已经