面向文本的实体关系抽取技术的研究与应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:d34276
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,当今正处在一个信息爆炸的时代,各种信息呈指数级增长,在这其中,文本信息占据了相当重要的组成部分,因此从非结构化的信息中提取出有用的结构化信息显得尤为迫切和重要。信息抽取(Information Extraction,IE)就是旨在从非结构化的自由文本中抽取出结构化信息的技术。关系抽取任务为从非结构化的自由文本中抽取出“实体1-关系/属性-实体2/属性词”的三元组结构化信息,可用于构建知识图谱和辅助信息检索,因此关系抽取在信息抽取中占据了重要地位。在关系抽取任务中,利用依存结构信息提取特征,是多年研究以来被证明较为有效的方法,现有的基于依存结构的模型存在两方面问题,一方面,由于受限于模型结构或减少噪音影响,多数工作采用了剪枝的策略,从而会导致模型无可避免地丢失部分上下文信息,因此模型性能会受到限制。另一方面,基于图卷积的方法虽然可以很好地建模树结构,但却面临稀疏邻接矩阵的问题,节点无法有效地与更多更相关的节点交互。若依存结构信息使用不当,模型效果反而会下降。此外,训练数据分布不均衡的问题也影响了模型性能表现,巨大的数据量差距容易引起预测偏差,但对于关系抽取任务,自然语言处理中常用的数据增强方式又受限制。因此,本文提出了一种新的依存指导的注意力机制,并通过集成预训练语言模型和标签的描述信息来进行数据增强。首先,为了得到更丰富和上下文更相关的语义信息,本工作使用了预训练语言模型提供词义表征向量,通过这种方式,对于数量较小的标签,也能使得模型根据预训练语言模型提供丰富的融有外部知识的语义信息提供较好的鉴别能力。此外,本工作也提出了融合了标签描述信息的标签向量和匹配计算的策略,引入标签的含义信息进行数据增强,进一步提升模型性能。其次,本文提出了一种新颖的双向的依存指导注意力模型,通过注意力机制在依存树结构进行特征提取,根据依存树特征,分别在从上到下和从下到上两个方向建模不同语义范围和粒度的信息流,同时缓解了稀疏邻接矩阵的问题,并使用了距离向量以引入节点与最小依存树的距离信息以代替剪枝操作,从而减少信息损失,提升模型性能。最后,本论文将所研究的算法模型落地应用到了中科院计算所CoreNLU自然语言处理平台中,证明了本论文模型的有效应用价值。
其他文献
近年来,随着大数据概念的兴起和发展,越来越多的行业和领域开始将目光投向大数据的挖掘和使用,旨在利用大数据推动行业的进步。然而,大数据中可能包含个人的隐私信息,如果将其发布在云端并进行共享,可能会造成个人隐私的泄露,损害个人利益,甚至威肋生命安全。大数据共享阶段一般对存储在云端的数据采用访问控制技术来控制数据的共享过程,其中密文策略的属性基加密(CP-ABE)技术能够提供细粒度的访问控制,因此受到广
探究神经元如何处理它们接收到的输入信息,从而产生能够激活其突触后神经元的动作电位对于理解大脑的工作方式至关重要。本论文主要研究了影响树突信号衰减的机制,研究结果使我们可以更加深入理解突触输入位置、树突放电(dendritic spikes)、树突直径等因素在神经元树突信号处理中扮演的角色。这些结果也能为探索树突整合突触输入的方式提供帮助,继而促进神经活动与行为间的联系方面的研究。具体而言,通过构建
随着国家、社会经济的发展,各行各业对安全的需求日益旺盛。水利、电力、油气、矿产、通信、网络、金融、国防等基础设施的稳定运行需要可靠的安防体系来保障。光纤制作原料充足,且具有质轻耐腐等稳定优良的物理化学性质,基于光纤传感原理的光纤安防系统受到了市场与研究人员的关注。为提高系统对入侵行为的分类正确率,结合机器学习算法对不同事件类型分类识别成为主流研究方向,且取得了不错的分类效果。然而目前多数算法识别分
近年来,在国家不断出台的利好政策支持下,我国工业互联网快速发展,而移动端工业APP作为工业互联网的核心价值体现,在搭载了移动互联网小巧轻便、易于获取和传播的优势的同时,也是对工业知识和经验的积累和沉淀,其“赋能”、“赋值”和“赋智”的作用日益凸显,拥有广阔的市场前景,具有很高的研究价值。然而,工业互联网发展提速带来了信息技术人才出现较大缺口的问题。为支持在新工科教育背景下,我国工业APP的持久向前
基于光子晶体微腔的传感器由于模式体积小、控光能力强、易于集成和无标记检测等优点被广泛应用到传感领域。近年来,具有高集成度和多参量传感能力的多参量传感器成为传感技术的研究趋势,基于光子晶体微腔的双参量传感器不断被提出。在此基础上,如何提高双参量传感器的检测准确性是一个需要重点关注的问题。通过对双参传感理论的分析,利用电场分布的不同增大灵敏度差异,可以有效提高双参量检测的准确性。传统的基于光子晶体微腔
随着智慧城市、虚拟现实与增强现实等新兴科技的发展,人们对数据流量的需求与日俱增。C-RAN架构无线前传CPRI接口速率过高限制了 B5G/6G系统的发展,模拟光载无线(RoF)技术相比数字化传输技术而言,无需采样和量化,可以有效解决前传接口带宽过高问题。传统RoF阵列系统架构成本高,容量低,不足以满足超大规模无线通信系统对超大带宽、超高容量的需求。针对上述挑战,论文研究了基于多芯光纤(MCF)传输
随着现代社会的数字化变革和互联网的飞速发展,大数据和云计算等新兴技术在推动数据中心规模化建设的同时,也产生了爆炸式增长的数据流量,对数据中心内部互连网络的带宽提供能力与能耗带来了前所未有的挑战。为了减少数据中心的搭建成本及能耗,提高数据中心内部数据传输的效率,本论文针对在数据中心内部互连网络中引入光交换的研究思路展开探索。首先结合数据中心内部业务传输需求与光交换技术的研究现状,提出了基于光时隙交换
目前,短视频成为了互联网内容传播最主流的方式之一,随着其市场的逐渐成熟及竞争格局的逐渐稳定,用户的增长速度变得缓慢,用户的红利期也渐渐消退,短视频市场的竞争焦点也逐渐由增量市场转向存量市场。如何提高现有用户的活跃度、深入挖掘每个用户的价值是当前各个短视频平台十分重视的方向。因此,围绕多任务学习模型提升短视频中用户行为预测性能对各短视频平台探索更多元化和更深层次的商业变现模式具有重要意义。本文基于多
VANET(车辆自组织网络)作为MANET(移动自组织网络)的典型应用,是ITS(智能交通系统)中最重要的发展方向之一,旨在为道路上的车辆提供路况预警功能和数据自组织传输能力,通过充分利用车辆和交通基础设施所共享的大量数据,来改善驾驶安全和交通管控状况。然而,当车辆在网络中共享数据时,面临着身份隐私泄露、消息置信度低的问题。同时,车辆转发信息需要消耗自身资源,因此用户通常会选择利益最大化的行为并拒
高品质、高效率的单光子源是实现量子信息通信技术的核心部件。半导体量子点有着“人造原子”的别称,具有高量子效率、高亮度、易于集成等优点从而成为制备单光子源的理想固态系统。受腔量子电动力学的影响,与腔耦合的半导体量子点单光子源的各项性能更是得到大幅度提升。本文以制备高效率的微腔耦合量子点单光子源为目标,计算分析了量子点能级结构,讨论了量子点的跃迁机制并基于腔量子电动力学得到了高效率半导体量子点单光子源