基于自训练去噪与特征融合的极细粒度实体分类方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:djs4520345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
极细粒度实体分类任务旨在为文本中的命名实体做类别划分,是信息抽取中的关键任务,更细的类别划分能为信息抽取提供更丰富的语义内涵,该技术也是信息检索、问答系统、知识图谱、文本挖掘等下游任务的重要支撑。作为关键任务,极细粒度实体分类需要消除语义上的歧义,根据实体(专有名词)的上下文自动、快速地发掘合理且准确实体细粒度类别含义。极细粒度实体分类由于类别多(超过一千类),标注极为困难因而鲜有标注数据,只能通过用规则生成的远程监督数据作为训练数据。但是远程监督数据普遍存在超过20%的噪声,这是目前极细粒度实体分类的发展瓶颈。因此本文提出通过自训练学习方法剔除极细粒度数据集中存在的噪声。另一方面,随着类别的增多与数据量的攀升,极细粒度实体分类对于特征抽取器的依赖也在加剧,也是目前极细粒度实体分类的另一个短板。特征抽取是自然语言处理中不可避免的第一步,但是训练一个性能优异的特征抽取器需要耗费研究者大量的金钱与时间成本。本文在此前提下提出对现有特征抽取器进行融合的方法,以获取富含更多语义信息的特征抽取器。本文提出的基于自训练去噪与特征融合的极细粒度实体分类方法具体为:(1)针对极细粒度远程监督数据中存在的噪声的问题,本文提出基于自训练去噪的极细粒度实体分类方法。自训练去噪方法依赖于数据的全局与局部一致性对远程监督数据净化提纯,步骤如下:划分远程监督数据集为实体不相交子数据集;基于子数据集为局部数据分布建模;统计局部分布的情况建模全局数据分布;通过新旧全局数据分布对比评估;截取不同程度净化的远程监督数据集。基于去噪优化后的远程监督数据集训练新模型,新模型不仅获得了性能上的提升,同时也改善了模型对有监督数据集过拟合的情况。此外本文通过随机挑选去噪后数据进行手工评估,以及通过将方法迁移到不同的数据集进行实验。结果证明自训练去噪方法强大且稳定的去噪能力,同时也证明了无需先验的自训练方法具有普遍适用性。(2)针对复杂特征抽取器难以优化的问题,本文提出了基于特征融合的极细粒度实体分类方法。该方法为特征抽取提供了一种崭新的思路,能在仅使用少量计算资源情况下获得更多文本特征信息。通过尝试对不同特征抽取器的线性融合与级联融合使现有的特征抽取器获得更加丰富的信息。本文证明级联融合对相似度较低的特征抽取器拥有更好的融合性能。同时通过模型参数量与模型性能的关系论证了适应于当前极细粒度实体分类模型复杂度的特征融合方法。本文采用了极细粒度实体分类领域内通用的公开数据集和一个跨域数据集进行实验,并采用了统一公认的评价标准。实验结果表明,本文提出的极细粒度实体分类算法超过了现有最先进(State-of-the-Art)的方法。基于本文提出的极细粒度实体分类方法,在2019年美国国家标准技术研究院(NIST)组织的国际知识库构建大赛(TAC KBP)中的极细粒度实体识别与实体发现任务上,取得了综合成绩国内第一名的好成绩。参加本次任务的队伍还包括腾讯人工智能平台部、阿里巴巴达摩院、IBM Research、UIUC、CMU等国内外高校与研究机构。在中国工程科技知识中心的应用中,创新性的在标注器上应用了极细粒度实体分类模型辅助标注人员完成实体分类数据的标注,通过累计对140个文档,总共4030条实体数据的标注实践证明该标注器的推广能够使标注人员提高一倍的效率。
其他文献
我国老年群体规模越来越大,然而在整个旅游市场中所占的份额却不高。本文结合智慧养老的时代背景,提出一种老年人旅游个性化推荐方案,以充实老年人的退休生活,蓬勃老年群体旅游市场。随着互联网和移动终端的普及,越来越多的老年人开始接触网络信息。本文通过隐式评分策略,使用协同过滤推荐算法,融合老年人生理特征、心理特征以及社交属性,将老年人年龄、性别、运动能力、兴趣偏好及朋友圈信息用作相似度计算,然后根据历史数
随着科技的进步和社会的发展,各种各样的网络不断地交织与迭代,从互联网到万维网,从电力网到交通网,从科研合作网到全球政治经济网,这些网络不仅结构复杂,而且形态各异。在现今互联网时代,对复杂网络的研究既能创造出经济价值,也有利于构建稳定的社会秩序。节点重要性关乎其在整个网络上的影响力,抓住了关键节点就如同把握住了问题的关键与核心。总体看来,当前对网络节点重要性的研究主要集中在对其定量的静态刻画上,而在
作为推荐系统、在线广告等领域的核心研究方向,点击率预测受到了学术界和工业界的广泛关注。近年来,随着深度学习技术的火热,许多的互联网公司和相关研究机构在将深度学习和传统点击率预测模型相结合的方向上做出了一系列的优秀研究成果。本文通过对已有的点击率预测模型进行总结和分析,发现大多数模型在交叉特征提取机制上存在着缺陷与不足,尤其是没有考虑到特征之间相关性信息和重要性权重的挖掘。针对上述问题,本文根据点击
智能铁路监控系统的图像质量决定了后续智能算法的准确率。本文课题以某公司铁路项目为例介绍了铁路线扫系统的架构及现场安装,详细说明线阵相机的器件选型并完成硬件电路总框图。针对GL0402的成像效果有明显竖条纹现象,采用均匀光筒搭建实验环境进行采集大量图像样本并用均值滤波算法优化,再得出传感器感光响应呈线性。比较两点法和分段线性法优劣,提出两点法固定模式噪声(FPN,Fixed Pattern Nois
“十三五”规划期间,我国的工业化与信息化融合进入了快速发展轨道,伴随着大批中小企业纷纷加快了信息化的步伐。中小企业的生产工艺灵活多变,随着规模的发展业务流程变更频繁,并且不同企业之间具有很大的差异性,为MES系统的开发带来了新的挑战。本论文首先通过分析MES系统的国内外研究现状,提出了本文的研究目标,内容与拟采用的研究方案。然后对MES生产管理子系统的功能性需求和非功能性需求进行分析。在系统设计部
当今互联网业务迭代更新迅速,传统测试方法已无法满足不断变更的测试需求。流量回放作为一个自动化产生真实流量、回放测试用例的方法,能够适应不断变更的测试需求,对测试行业的发展具有重大意义。其中,Http协议作为应用业务的常用网络传输协议,在测试任务中占据很大比例。本文对现有的流量镜像技术和应用测试工具进行研究,学习并分析了相关技术理论,从测试人员的用户角度出发,分析测试人员对流量回放平台的功能需求,设
随着移动互联网技术的普及,传统的办公模式也迎来革新,即时通讯办公软件对于企业而言越加重要。各大软件和互联网厂商陆续推出集办公和通讯为一体的协作软件,然而大部分公司却并未挖掘出企业即时通讯办公软件的潜力,仅仅将其作为内部通讯工具使用。本文选取字节跳动的飞书作为研究和开发对象,为了满足作者所在公司内部各团队对于数据交互、数据连通和自动化办公的需求,同时为了挖掘飞书定制开发的最大潜力,本文设计并研发了一
面部信息是人类情感表达的主要方式,在过去30年中,计算机视觉领域的学者对人脸信息处理相关的课题开展了大量研究,并取得了丰硕的成果。面部表情合成即通过图像处理算法使得输入人脸具有特定的面部表情,是目前人脸分析研究中的热点,并受到了广泛的关注,其在人机交互、电影特效、虚拟现实、动画人物制作等领域具有广阔的应用场景和重要价值。尽管已经取得了很大进展,目前的真实感面部表情图像合成方法仍然存在一定的局限,尤
随着移动互联网广告市场规模迅速扩大,精准营销成为广告投放服务的研究重点,现有的广告投放系统,不能很好地适应网约车场景,针对这一现象,本文研究符合网约车特点的终端广告投放系统。本系统使用基于逻辑回归的CTR预测模型,对在线用户进行展示广告推荐,使用用户历史行为数据周期迭代地训练,降序输出广告集。为了完整地实现展示广告从配置到终端展示的全流程,本系统使用分层架构,基于LNMP(Linux+Nginx+
现如今人工智能伴随着机器学习和深度学习等相关技术的快速发展,已经在日常生活、工作中处处发挥着便利我们的作用,但是智能机器进一步认知人类世界离不开对知识的理解。知识图谱以结构化的形式存储着数据知识,用于描述客观世界中的抽象概念、命名实体以及相互关联关系。知识图谱构建质量依赖于实体关系抽取的性能。目前基于深度学习的实体关系抽取模型依赖于大量的标注数据,而真实应用落地场景中少样本类别所占比例较大,数据长