论文部分内容阅读
随着信息通信技术特别是移动互联网的快速发展,人类逐渐进入数据大爆炸的时代,每天都会有海量的数据和知识产生。面对海量的数据,用户如何快速高效地获得有用的知识,成为了这个时代热门的课题和棘手的难题。把海量的无结构化文本数据以知识图谱的形式存储表征,成为现在一种主流的知识存储方式。在这一过程中从文本中抽取实体和关系以及已有知识图谱的推理和表示成为了知识图谱能够更好应用于具体领域的关键技术,因此本文的研究内容如下:1、针对现有实体关系联合抽取方法,底层语义编码过于简单,不能充分表征上下文语义的问题。本文通过在底层编码阶段加入多头注意力机制,同时把不同编码层训练出的语义表征拼接,从而在编码层实现更加丰富的语义表示,最终达到提升上层解码阶段的实体关系识别的效果。2、知识图谱中表示学习方法主要是以TransE方法为代表的翻译方法,它是把实体关系映射到低维连续的张量空间中,但是现有的翻译方法不能准确地表征复杂关系的三元组,比如一对多,多对一,多对多关系。针对基线方法局限性,提出了一种基于嵌入非对称的知识表示推理方法(AEM)。本文提出的AEM方法把头实体和尾实体映射到同一关系空间中的不同的子空间中,可以在极大程度上缓解复杂关系的表示问题,同时易训练、易使用。3、针对本文提出的基于嵌入非对称的知识表示推理方法(AEM)不能弹性的表征三元组的实体关系的问题,本文结合OrbitE方法,提出了基于流形的非对称嵌入知识表示推理方法(MAKR)。MAKR方法把通过对应关系空间映射的尾实体嵌入到关系超维流形球面上,而不是关系空间中的一个点上,可以在很大程度上缓解复杂关系中实体表征不严谨的问题。本文对MAKR方法在公开数据集上进行了训练和测试。实验结果和基线方法相比,获得了明显的提升,从而证明了本文提出的MAKR方法有效性。上述研究内容涵盖了知识图谱中的两大子任务:实体关系联合抽取和知识图谱表示和推理。本文基于两大子任务中现有方法存在的不足,提出的改进方法在获得了更好的提升效果,对知识图谱领域的技术进步具有一定的借鉴意义。