面向教育知识图谱实体对齐算法的实现与评价研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:wcf2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着教育信息化的发展,构建高质量的教育知识图谱尤为重要。实体对齐是知识图谱构建的关键一环,能有效整合不同图谱的知识,形成大规模、标准统一的图谱,更好服务下游应用。然而,不同知识图谱的命名空间存在较大差异,此种异构性使实体对齐任务面临巨大挑战。现有的实体对齐方法大多单一考虑知识图谱的关系三元组,基于知识表示技术进行迭代训练,得到相应的向量空间,传统的实体对齐方法为了将不同的向量空间合成到一个空间中,采用预对齐的实体对作为种子进行约束训练。这种方式需要人工参与,效率较低,也没有充分利用知识图谱中的属性信息。对于含有更为丰富的属性信息的教育知识图谱而言,如何利用属性信息是实体对齐的关键。此外,教育知识图谱中的知识基本来源于互联网,存在较大知识质量隐患,而教育中错误的知识会导致不可估量的后果,所以如何保证教育知识图谱的质量也是一大难点。基于以上两大难点,本文对教育知识图谱的实体对齐方法和评价方法进行了深入研究,主要工作分为以下三部分:(1)本文提出一种新的联合利用关系三元组和属性三元组对实体进行向量表征的方法,利用预训练语言模型和知识表示技术进行迭代训练。对于关系三元组,本文将BERT(Bidirectional Encoder Representation from Transformers)的强大语义表征能力迁移到Trans E模型的初始化阶段,基于原始向量空间进行Trans E迭代训练,提高结构层面实体向量表示的效率和准确率。另外基于BERT对属性三元组进行向量表示,根据翻译模型思想和TF-IDF权重分配策略得到属性层面的实体向量,最后联合得出实体向量。(2)根据知识图谱质量维度和实体对齐过程,本文选取实体冗余率和信息缺失率两大指标反馈实体质量,提出基于BERT的多特征实体评价方法,综合利用实体的多维信息。首先采用聚类算法降低计算的实体对规模,再根据实体多方面信息计算实体的语义相似度,得到冗余的实体对,进而精简知识图谱的结构。另外,借助开放的知识图谱平台,通过多级过滤进行信息比对,得到实体缺失的信息集合,有效进行知识互补。(3)本文搭建面向教育知识图谱实体对齐与质量评价平台,集成上述提出的实体对齐方法和评价方法。为了具备高可用和高吞吐的特性,平台内部组件通过微服务的思想进行调用,所有组件采用集群的方式进行部署。
其他文献
国际新创企业(International New Venture,简称INV)作为新兴的一种国际组织,其非连续的独特的国际扩张路径挑战了传统国际商务理论。然而INV在新兴市场即使面临资源限制依旧能取得成功。这一现象引起了国内外学术界的关注。新兴市场虽然存在制度缺陷,但其庞大的市场增长空间以及潜力巨大的经济发展逐渐吸引跨国企业管理者的注意。随着竞争的加剧,INV的发展环境也逐渐变得艰难。INV如何在
学位
随着燃油汽车的尾气污染日益严重和不可再生资源的消耗日益加剧,使得多数国家都致力于研究如何减少碳排放和提高能源利用率,由此新能源车的发展显得至关重要。电机作为新能源车的最主要部件之一,在新能源车行驶中充当着主要的角色。由于新能源车电机运行工况复杂,其导致旋转变压器的失效故障受到了国内外学者的关注。而使用无感矢量控制作为旋转变压器故障的容错控制策略,具有很好的研究价值以及应用前景。本文以表贴式永磁同步
学位
随着生物医药产业的迅速发展,高效的下游蛋白纯化技术对于生物药品的规模化制备具有重要意义,层析分离技术是当前生物制药生产中不可或缺的分离纯化技术,其中混合模式层析作为层析技术的一种越来越受到人们的关注。本课题以聚丙烯酸酯类微球为基质,制备了三种不同类型的混合模式层析介质,针对配基密度和孔径参数,对混合模式层析介质进行优化,考察不同配基密度对混合模式介质的吸附性能、耐盐性能以及蛋白回收率的影响,研究了
学位
网络视频平台用户数量既是随机的,又是波动的,在产业实践中,平台通过一系列价格策略吸引用户接入平台,随着用户规模变化,在双边用户之间交叉网络外部性的作用下,平台用户的效用也会发生变化,因此,平台企业价格与用户需求波动有关。网络视频平台作为受众制造者平台,其利润水平与高昂的内容成本密切相关,内容成本主要来自第三方专业内容产品的购买以及与第三方合作制作内容的成本。与此同时,随着制播分离以及制播多元化模式
学位
高速磁悬浮电机由高速电机和两端的三自由度混合磁悬浮轴承组成,能够工作在高速运行状态。磁悬浮轴承实现了对转子的无摩擦悬浮支撑,这不仅降低了电机的摩擦损耗同时也延长了电机的使用寿命。采用三自由度混合磁悬浮轴承缩小了电机本体的体积,与传统的主动磁悬浮轴承相比进一步降低了系统功耗。本文针对混合磁悬浮轴承对转子位置的稳定悬浮和故障容错问题,展开相应的控制算法和容错控制算法研究。首先,介绍了三自由度混合磁悬浮
学位
LTE-V2X是一种新兴车联网协议,通过车与车、车与路侧等之间的直接传递交通信息,为交通安全、城市拥堵、环境污染等难题给出了解决方案。由于涉及交通参与者的生命财产安全,车联网协议对实时性和安全性要求很高。然而,如果对于协议标准理解不当或者编程不规范,将会导致安全问题,在车联网的场景下会给交通安全带来严重的危害,因此在LTE-V2X大规模部署以前,对其进行自动化的安全性测试很有必要。在自动化的漏洞挖
学位
工业技术的飞速发展使得许多行业对器件的热性能管理有了更高的要求,尤其是以微电子领域为代表的以精细化为目标的微型器件。除此以外,超级计算机、电子动力汽车以及核工业等众多领域也不断的涌现出与热性能管理相关的新挑战。沸腾传热作为一种极具潜力的散热方式得到了人们的广泛研究,被动强化池沸腾换热性能最为广泛的是表面改性方法,改变表面条件可以在一定程度上大幅提升换热系数以及临界热流密度,相比于稳定性不一的纳米结
学位
近年来,全球气候变化巨大,生态环境越来越恶劣,各种自然灾害事件频发,给各国人民、政府带来的人员伤亡和经济损失不可预估。Y市每年都会暴发不同影响程度的自然灾害,灾后初期救援活动的开展和善后工作都需要大量的物资供给,但不管是在应急物流组织体系还是在应急物资配送方面,目前Y市都还存在一些不足之处亟待改进。因此,本文将主要研究自然灾害事件下Y市应急物流配送问题。首先,本文从自然灾害、应急物流、应急配送等相
学位
背景:种类繁多的微生物在根管内壁及根尖周组织以生物膜的形式定植,是促进慢性根尖周炎持续进展的关键因素。感染根管微生物群落中细菌多样性及丰度的研究,对根管内的感染控制、提高患牙根管治疗的成功率和患者的生活质量有重要意义。此外,口腔细菌生物膜复杂的三维结构是菌体耐药和免疫逃逸的基础,是根尖周炎反复发作、难以治愈的主要原因之一。目前关于感染根管生物膜模型较多,但还没有一个标准的模型。本项目基于感染根管内
学位
为满足5G应用场景需求,具有低介电、高导热和高电磁屏蔽性能的新材料的研究和应用备受关注。聚乙烯(PE)因具有较低的介电常数,广泛应用于电子、能源和通信等领域。近年来,有关导热聚乙烯复合材料与聚乙烯介电复合材料的研究较多,但对于兼具导热性能和低介电常数的聚乙烯复合材料,仍未有理想的解决方案。本论文以聚乙烯为基体树脂,以乙烯-醋酸乙烯酯共聚物(EVA)为改性树脂,通过引入导热填料与低介电填料,研究了复
学位