【摘 要】
:
实体关系分类是自然语言处理中一项重要的任务,旨在识别出文本中实体对之间存在的关系,是知识图谱构建、自动问答系统等多项任务的基础。传统基于规则的方法需要领域专家制定规则,耗费人力且通用性差;基于深度学习的有监督学习方法依赖大量的标注数据,性能受限于标注数据数量;远程监督方法能够将知识库的知识对齐到文本进行自动标注,但无法解决样本长尾分布的问题,并且会引入样本噪声。因此,在小样本条件下实现实体关系分类
论文部分内容阅读
实体关系分类是自然语言处理中一项重要的任务,旨在识别出文本中实体对之间存在的关系,是知识图谱构建、自动问答系统等多项任务的基础。传统基于规则的方法需要领域专家制定规则,耗费人力且通用性差;基于深度学习的有监督学习方法依赖大量的标注数据,性能受限于标注数据数量;远程监督方法能够将知识库的知识对齐到文本进行自动标注,但无法解决样本长尾分布的问题,并且会引入样本噪声。因此,在小样本条件下实现实体关系分类具有重要的研究意义。现有的小样本关系分类模型将小样本学习方法与关系分类模型结合,其中基于原型网络的方法取得了较好的成果。目前基于原型网络的方法大多使用卷积神经网络(CNN)和静态词向量对文本进行编码,模型性能受限于词向量的语义建模能力,且未充分利用实体语义信息。此外,原始的原型网络忽略了支持集中同类样本的差异,无法针对具体的查询样本构造适合当前分类任务的原型。针对上述问题,本文在现有研究成果的基础上提出了基于实体信息增强与选择注意力的小样本关系分类模型。模型使用Ro BERTa构建文本编码器,能够充分地提取文本上下文语义特征。为了更充分地利用实体语义信息,本文提出基于互注意力的实体语义信息增强方法,将实体语义信息与全局语义信息融合,得到更丰富的实体关系特征。此外,考虑到支持集同类样本间的差异,本文提出了基于选择注意力的原型构建方法,在构建原型的过程中,能够针对当前查询样本的特征,为支持样本赋予不同的权重,构造更精确的原型。最后,本文在模型的损失函数中加入了支持集相似度损失,使模型从同类样本提取到的特征更加统一,进一步提升了关系分类的准确率。本文在小样本关系分类常用的Few Rel 1.0和Few Rel 2.0数据集上进行了广泛的对比实验,结果表明,与主流方法相比,本文提出的模型有效地提升了小样本关系分类的准确率,并且具有更强的领域迁移能力。本文还在传统关系分类任务数据集Sem Eval-2010 Task 8和NYT-10进行测试,验证了模型的适用范围。此外,本文设计了多组消融实验,分析了模型中各模块对模型性能的具体影响。最后,本文测试了模型在不同任务条件下的准确率以及计算效率,验证了本文模型应用的可行性。
其他文献
结晶是精制各种固体化合物产品的重要方法之一。膜结晶因多孔膜材料对结晶过程存在明显的诱导作用而能较好地调控溶质分子在膜面的非均相结晶成核与晶体生长。然而在持续化膜结晶的过程中,发现晶体在膜面沉积时易发生膜孔阻塞,使得膜性能下降甚至失效。因此在膜结晶过程中有效分离膜面晶粒,维持系统可持续操作是膜结晶过程的发展方向。针对膜面晶体产品堵塞膜孔的问题,本文提出采用膜面旋转的膜结晶分离新方法,通过膜面旋转使附
人防工程关系到国家的安危,涉及到人民的生命财产安全,是国防建设的重要组成部分。随着城市化的不断发展,人防工程的规模越来越大,设备越来越复杂,对人防工程的设施管理也提出了更高的要求。有效的评价人防工程设施管理水平,能够明确各种因素对人防工程设施管理的重要性,同时可以为决策者提供依据。因此,对人防工程设施管理进行科学的综合评价,对于推动我国人防工程的健康发展具有重要意义。本文按照以下四个方面开展研究:
无监督异常检测旨在仅利用正常样本建立模型,而在推理时识别出不符合正常模式的样本。无监督异常检测在工业质检、视频监控等领域有广泛的应用。近年来深度学习和卷积神经网络在许多计算机视觉任务上取得了巨大的进步,但无监督异常检测方法在处理复杂的视觉数据时难以利用数据内部的语义上下文信息的问题依然存在。针对这一问题,本文在图像和视频两种类型的视觉数据上分别提出了相应的结合语义上下文的无监督异常检测方法。在图像
深度学习与人类智能存在一个显著的差异,即人类可以通过极少量的样本分辨新类别物体,而深度学习则需要大量训练样本才能实现良好的分类结果。为降低这一差异,研究人员开始探索小样本学习工作。小样本学习不仅能够减轻为模型收集大量全监督信息的负担,还能减少处理图像数据所需的人力物力。小样本学习分为三种学习方式:全监督学习、半监督学习和无监督学习。随着小样本学习的发展,一些研究人员从全监督小样本学习转向挑战性更高
序批式活性污泥法(Sequencing Batch Reactor Activated Sludge Process,SBR)处理工艺作为污水处理最广泛采用的技术,在污水净化方案中占据十分重要的地位。建立SBR过程故障诊断系统,能够及时检测故障的发生时刻和位置,提高SBR过程的稳定性和连续性。故障诊断系统对于提高生产效率、降低设备维护成本具有重要意义。本文以广州某造纸厂的SBR工艺过程为研究对象,
大功率光纤激光器因其高转换效率、高可靠性、高光束质量、结构紧凑、胜任恶劣环境等特点而广泛应用于工业制造和国防军事等领域。近年来,大功率光纤激光器的输出功率已达万瓦甚至数十万瓦量级。然而,在长时间高功率运行过程中光纤激光器可能会发生输出功率下降、泵浦阈值增加以及性能不稳定的现象,即光暗化效应,导致器件的稳定性和使用寿命等服役性能大幅降低,成为其进一步发展和应用的瓶颈。从材料的角度来看,在高功率运转下
PPP模式作为近年来广受关注的一种投融资模式,不仅可以有效缓解政府投资公共基础设施资金不足的问题,还成为了各大建筑企业承揽合同额的主要增长点。建筑国企以较大的规模、较高的资质信誉以及较强的施工能力更容易获得地方政府的认可,在PPP市场中占据相当比重的份额,建筑国企也将PPP模式视为市场开拓的大红利,今后承揽PPP项目的数量和规模也必将持续增大。但是建筑国企接触PPP项目的时间不是很长,对于影响PP
作为人体骨骼和牙齿中的主要矿物成分,羟基磷灰石(Hydroxyapatite,HAP)具有良好的生物相容性和机械性能,是优良的骨骼或牙齿修复材料,因此如何调控HAP的晶体生长备受关注。此外,人体中的柠檬酸根离子(Citrate ion,CIT)会富集在骨骼及牙齿处,在生物矿化过程中发挥着重要的辅助功能。因此,本文采用分子动力学(Molecular dynamics,MD)模拟方法研究多种与生物矿化
心血管疾病已成为严重的公共卫生问题,而心肌纤维化是心力衰竭的重要病理生理改变。环状RNA(circular RNA,circRNA)是一种闭合环状的长链非编码RNA,已有一些研究证实circRNA可参与心血管疾病的发生发展过程。本文将探讨circRNA_100395在心肌纤维化中的表达及其调节心肌纤维化的作用机制。目的:探究circRNA_100395调控心肌纤维化的作用机制。方法:1、Masso
随着互联网的发展,电子商务交易过程中会产生海量的交易数据,其中的消费者商品评论文本蕴含着极大的商业价值。目前,商品评论文本数量呈几何式增长,使消费者产生信息过载问题。同时,商品评论文本存在文本短、干扰信息多、行文不规范、表达方式复杂等特性,也增加了情感分析的难度。主流电商平台采用简单的打分机制对评论信息有一定程度的利用,却依然缺乏对于评论信息细粒度的挖掘。因此,建立一个基于消费者评论情感分析的商品