论文部分内容阅读
随着互联网的快速发展,各类信息数据也随之爆发式的增长,这些海量的碎片化数据作为重要的信息资源,被整理为结构化的知识数据并以知识图谱的形式管理,可以广泛应用于语义智能搜索、知识问答、知识推理等领域。由于互联网世界的开放性,很多机构或组织都会根据自身的需求和理念去构建知识图谱,那么不同知识图谱间也会充满多样性和异构性、并且其数据中会存在很多语义重复的实体或者关系。如果要对多个知识图谱相互关联从而构建更大规模的知识图谱,就必须进行知识融合,其中的关键技术就是实体对齐。传统的实体对齐工具存在着大量的不足,其提供的实体对齐算法适用范围非常有限,并且效率较低,不能满足用户多样性的任务需求;并且缺少友好的人机交互界面,工具的使用门槛较高、用户体验较差。本文针对传统实体对齐工具存在的不足,对基于知识表示学习的实体对齐方法进行研究,发现其不受语言学特征、结构信息的限制,可以不依赖字符串信息而获取到文本固有的语义信息,提出了一种基于神经张量网络的跨知识图谱实体对齐算法,并开发实现了一个知识图谱实体对齐系统,本论文的主要研究成果包括:(1)提出了一种基于神经张量网络的跨知识图谱实体对齐算法,分为联合知识表示学习和改进型NTN对齐模型。联合知识表示学习方法基于种子集对多知识图谱进行知识表示学习,将种子集的对齐关系视为实体之间的特殊关系作为对两个知识图谱合并的约束,从而将两个知识图谱糅杂在一起,再使用知识表示学习方法实现两个知识图谱在统一低维空间的向量化表示;改进型NTN对齐模型用于计算待对齐实体对向量之间的相似性,从而推断评判两个待对齐实体对间是否存在对齐关系,实现跨语言知识图谱实体对齐。本论文方法在DBP15k数据集的实验效果其Hit@10指标最高达到了 79.20,MRR指标达到了 0.511,结果表明该算法与传统算法相比性能较优。(2)设计并实现了一个知识图谱实体对齐系统,封装了本文提出的基于神经张量网络的跨知识图谱实体对齐算法,将其用于在线实体对齐计算任务并预留了接口,便于对其他实体对齐算法的扩展,实现了高效的数据缓存以及知识图谱数据的存储,并且提供了良好的人机交互界面。测试表明该知识图谱实体对齐系统总体满足了系统的设计目标,拥有较好的稳定性、用户友好性、高效性、灵活性。