便于多实体消解中人工干预的自动对比表生成方法

来源 :南京大学 | 被引量 : 0次 | 上传用户:zcf3031132044
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着知识图谱技术的迅速发展,人们从不同数据源获得了数以亿计的实体。实体消解即识别指称现实世界同一对象的不同实体的过程。利用实体消解可以找出不同知识图谱中等价的实体,从而能够将不同知识图谱中的事实知识进行融合,获得内容更加丰富的知识图谱。因此,实体消解长期以来一直受到知识图谱以及许多其他领域研究人员的关注。虽然已经有大量用于解决实体消解问题的自动化方法,但是这些方法仍然面临着实体在不同知识图谱中表示方式异构的挑战。而人类作为背景知识的宝贵来源,越来越多地通过众包和主动学习参与到实体消解工作流中,其中呈现精简且易于比较的信息对于帮助人们干预实体消解任务至关重要。然而,当前用于单实体或成对摘要的方法不能很好地支持人类同时观察和比较多个实体,这降低了人工干预的效率和准确性。本文通过对一组实体的属性进行对齐后,再对多个实体生成摘要,得到多实体的对比表来辅助人工干预。本文提出了一种自动化方法,为一组实体选择一些重要的属性和值,并以对比表的形式呈现,用于人工实体消解。本文的贡献主要包括三个方面:●本文使用对数几率回归组合了属性对的三种相似度来估计匹配概率,并在同一个知识图谱中不存在重复属性的约束下进行全局属性匹配优化,利用高效的算法找出匹配的属性团。本文还证明了该约束下的整体属性匹配问题是NP难的。●本文在匹配属性团的基础上,依据实体消解任务的直观特性利用四种属性团优度度量和一种取值优度度量,用来评价不同属性团和取值对实体消解任务的帮助。本文设计了属性团数量约束和实体覆盖约束来选择最优的属性团用来构成对比表的列,再使用取值选择算法来填充对比表中的单元格。本文还证明了实体覆盖约束下最优的属性团优化算法的近似比。●本文构建了包含250个多实体消解任务的数据集用于测试算法性能,对比实验表明本文提出的对比表生成算法能够有效提高实体消解任务中人工干预的效率和质量。
其他文献
断奶应激引起的仔猪肠道屏障损伤是造成仔猪生长缓慢、腹泻甚至死亡的重要原因。本文重点探讨了日粮添加果胶(Pectin,PEC)对脂多糖(lipopolysaccharide,LPS)应激断奶仔猪生产
为探索培育烤烟壮苗所需光照条件和不同素质烟苗对大田烟株农艺性状、生理生化指标及初烤烟叶理化特性的影响,采用室内人工光源设计不同光照条件,以云烟87和K326烤烟品种为材
在民事诉讼与司法实践中,将来给付请求区别于现在给付请求,因其突破了债法的一般性原则,成为一个特殊的存在。关于将来给付请求,许多大陆法系国家均对其予以认同并在立法中规
砷是一种剧毒和致癌的非金属物质,由于世界上超过一半的人口都以大米作为主要食物,稻米中砷的积累及其对人类的健康风险的影响引起了全世界的关注。饲料添加剂中的洛克沙胂随
在无线通信系统中,信道作为无线通信系统中收发端之间的物理媒介,其特性决定了无线通信系统的各种性能,如误码率、相关性等等,是无线通信系统至关重要的组成部分。由于电磁波
频率是电能质量的三大标准之一,随着风电渗透率逐年递增日益严重,因此风力发电系统主动参与电力系统调频是风电发展的必然选择。当前风电机组调频主要集中于风机侧调频,但此
本文主要探讨网络交易平台提供商构成商标帮助侵权的构成要件以及侵权责任形态。本文共分为四个部分。第一部分,平台商的法律地位属于网络服务提供者。网络交易平台提供商受
黄曲霉毒素M1(AFM1)是牛奶中唯一有安全限量的霉菌毒素。但是,近年来研究发现牛奶中AFM1与其他霉菌毒素尤其是赭曲霉毒素A(OTA)交互存在的现象较为普遍,而这种交互存在可能会
刑事诉讼以证据裁判为原则,没有证据则没有诉讼。在刑事领域,被告人在证据攻防中处于一种消极和防御的地位,即通过质疑、否定公诉方提出的证据以实现瓦解控诉的目的。显然,刑
聚类分析是一种重要的无监督学习方法,它在没有类标签的参与下,通过对样本集的特征衡量其相似性,并据此将样本划分成不同的簇。目前,聚类分析已经被运用在许多实际的业务场景