面向数据长尾分布的实体关系抽取研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:winningking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今人工智能伴随着机器学习和深度学习等相关技术的快速发展,已经在日常生活、工作中处处发挥着便利我们的作用,但是智能机器进一步认知人类世界离不开对知识的理解。知识图谱以结构化的形式存储着数据知识,用于描述客观世界中的抽象概念、命名实体以及相互关联关系。知识图谱构建质量依赖于实体关系抽取的性能。目前基于深度学习的实体关系抽取模型依赖于大量的标注数据,而真实应用落地场景中少样本类别所占比例较大,数据长尾分布的特点不容忽视。数据长尾分布场景下,如何能够合理利用头部常见类别的较多标注数据解决尾部少样本类别抽取性能较差的问题,是目前亟需解决的科研课题。目前面向实体关系抽取数据的长尾分布特点,分别有针对整体分布下类别不平衡场景的研究,以及专门针对长尾部分少样本数据场景的抽取研究。本文基于这两方面研究视角分别提出了数据长尾分布场景下改善实体关系抽取性能的算法模型。在整体分布类别不平衡研究视角,提出解耦现有抽取模型的角度看待抽取问题,从而将提升尾部类别抽取性能的关键放在了分类层模块参数学习上;在针对尾部数据少样本研究视角,提出了充分利用实体和关系的交互信息,通过构建多类型原型的方式桥接文本信息和知识表征信息以提升尾部少样本数据的抽取性能。具体来讲,本文研究内容包括如下两个方面:1.针对整体数据长尾分布导致的类别不平衡研究视角,本文提出了将现有基于深度学习的实体关系抽取模型解耦看待。当模型解耦为用于抽取文本语义信息的表征层和针对特定类别范式的分类层后,观察探针解耦实验结果发现常用的自然采样方式学习到的表征能力高于数据重采样、损失函数重加权等类别重平衡处理技巧。此时进一步提出采用基于关系注意力的路由机制RAR(Relational Attention Routing)分类层参数学习算法,让关系层胶囊更均衡的竞争表征层文本信息胶囊的注意力,并结合关系胶囊层均分初始化及跨胶囊层多次路由迭代的优势,得以提升整体数据的抽取性能。在常用和人为构造的长尾实体关系抽取数据集上进行实验,得到验证所提方法的有效性,在不降低头部类别抽取性能的前提下提升尾部不常见类别的抽取能力。2.针对长尾部分少样本数据研究视角,为了充分利用知识三元组中实体对和关联关系之间的隐式交互,结合知识表示学习中的翻译算法,提出了一种多原型嵌入网络模型MPE-Net(Multi-Prototype Embedding Network)用于解决少样本场景中的实体关系联合抽取问题。具体来说,模型设计了一种混合的原型学习机制,将实体对和关系的文本、知识桥接在一起,从而让模型在学习过程注入实体和关系之间的隐式关联。此外,为了增强模型学习原型的效率和性能,同时引入了一种原型感知的正则约束,使得同类别的原型学习更加集聚,不同类别原型间的空间距离进一步拉大。
其他文献
数字PCR是近些年来快速发展起来的一种新的核酸定量分析技术。数字PCR反应结果以荧光点图像的形式加以呈现。但是,由于环境、仪器、样本等诸多因素的影响,系统中会存在一些荧光干扰,叠加在荧光图像上,增加后期图像处理和分析的难度,影响结果的准确性。其中主要干扰来自系统中非样本发射的荧光,如背景荧光等。样本荧光点图像的准确分析是数字PCR结果处理的基础和前提。使用光谱分离技术能够从数字PCR荧光图像中分离
我国老年群体规模越来越大,然而在整个旅游市场中所占的份额却不高。本文结合智慧养老的时代背景,提出一种老年人旅游个性化推荐方案,以充实老年人的退休生活,蓬勃老年群体旅游市场。随着互联网和移动终端的普及,越来越多的老年人开始接触网络信息。本文通过隐式评分策略,使用协同过滤推荐算法,融合老年人生理特征、心理特征以及社交属性,将老年人年龄、性别、运动能力、兴趣偏好及朋友圈信息用作相似度计算,然后根据历史数
随着科技的进步和社会的发展,各种各样的网络不断地交织与迭代,从互联网到万维网,从电力网到交通网,从科研合作网到全球政治经济网,这些网络不仅结构复杂,而且形态各异。在现今互联网时代,对复杂网络的研究既能创造出经济价值,也有利于构建稳定的社会秩序。节点重要性关乎其在整个网络上的影响力,抓住了关键节点就如同把握住了问题的关键与核心。总体看来,当前对网络节点重要性的研究主要集中在对其定量的静态刻画上,而在
作为推荐系统、在线广告等领域的核心研究方向,点击率预测受到了学术界和工业界的广泛关注。近年来,随着深度学习技术的火热,许多的互联网公司和相关研究机构在将深度学习和传统点击率预测模型相结合的方向上做出了一系列的优秀研究成果。本文通过对已有的点击率预测模型进行总结和分析,发现大多数模型在交叉特征提取机制上存在着缺陷与不足,尤其是没有考虑到特征之间相关性信息和重要性权重的挖掘。针对上述问题,本文根据点击
智能铁路监控系统的图像质量决定了后续智能算法的准确率。本文课题以某公司铁路项目为例介绍了铁路线扫系统的架构及现场安装,详细说明线阵相机的器件选型并完成硬件电路总框图。针对GL0402的成像效果有明显竖条纹现象,采用均匀光筒搭建实验环境进行采集大量图像样本并用均值滤波算法优化,再得出传感器感光响应呈线性。比较两点法和分段线性法优劣,提出两点法固定模式噪声(FPN,Fixed Pattern Nois
“十三五”规划期间,我国的工业化与信息化融合进入了快速发展轨道,伴随着大批中小企业纷纷加快了信息化的步伐。中小企业的生产工艺灵活多变,随着规模的发展业务流程变更频繁,并且不同企业之间具有很大的差异性,为MES系统的开发带来了新的挑战。本论文首先通过分析MES系统的国内外研究现状,提出了本文的研究目标,内容与拟采用的研究方案。然后对MES生产管理子系统的功能性需求和非功能性需求进行分析。在系统设计部
当今互联网业务迭代更新迅速,传统测试方法已无法满足不断变更的测试需求。流量回放作为一个自动化产生真实流量、回放测试用例的方法,能够适应不断变更的测试需求,对测试行业的发展具有重大意义。其中,Http协议作为应用业务的常用网络传输协议,在测试任务中占据很大比例。本文对现有的流量镜像技术和应用测试工具进行研究,学习并分析了相关技术理论,从测试人员的用户角度出发,分析测试人员对流量回放平台的功能需求,设
随着移动互联网技术的普及,传统的办公模式也迎来革新,即时通讯办公软件对于企业而言越加重要。各大软件和互联网厂商陆续推出集办公和通讯为一体的协作软件,然而大部分公司却并未挖掘出企业即时通讯办公软件的潜力,仅仅将其作为内部通讯工具使用。本文选取字节跳动的飞书作为研究和开发对象,为了满足作者所在公司内部各团队对于数据交互、数据连通和自动化办公的需求,同时为了挖掘飞书定制开发的最大潜力,本文设计并研发了一
面部信息是人类情感表达的主要方式,在过去30年中,计算机视觉领域的学者对人脸信息处理相关的课题开展了大量研究,并取得了丰硕的成果。面部表情合成即通过图像处理算法使得输入人脸具有特定的面部表情,是目前人脸分析研究中的热点,并受到了广泛的关注,其在人机交互、电影特效、虚拟现实、动画人物制作等领域具有广阔的应用场景和重要价值。尽管已经取得了很大进展,目前的真实感面部表情图像合成方法仍然存在一定的局限,尤
随着移动互联网广告市场规模迅速扩大,精准营销成为广告投放服务的研究重点,现有的广告投放系统,不能很好地适应网约车场景,针对这一现象,本文研究符合网约车特点的终端广告投放系统。本系统使用基于逻辑回归的CTR预测模型,对在线用户进行展示广告推荐,使用用户历史行为数据周期迭代地训练,降序输出广告集。为了完整地实现展示广告从配置到终端展示的全流程,本系统使用分层架构,基于LNMP(Linux+Nginx+