论文部分内容阅读
近年来,知识表示学习受到了广泛关注,其旨在将知识图谱中的实体和关系表示为稠密低维的实值向量,以便高效地计算实体和关系之间的语义联系,并可以将学习到的知识表示应用到知识图谱补全、关系抽取以及自动问答等下游任务中,提升所对应的各类模型的性能。
随着对知识表示学习研究的不断深入,一些研究学者将工作重心从改进模型本身转移到了除此以外的其他方面,包括多源信息融合以及负采样等。本文着眼于这两个方面,提出了一种新颖且有效的模型,通过采用注意力机制去捕获其他方法中人工制定的规则所涵盖的信息,解决了一些模型在融合实体类别信息时需要引入额外规则的问题,从而简化模型并提升模型的普适性。并且,为使得多源信息得到充分的利用,填补负采样工作几乎没有用到多源信息的空白,本文提出了一种利用实体类别生成高质量负样本的方法,以此提高模型性能。本文主要成果如下:
(1)提出一种融合实体类别信息的知识表示学习模型TEKRL。在引入多源信息的同时,解决了其他模型在使用实体类别信息时需要引入额外规则的问题。该模型构建了基于结构和基于类别的两种实体表示,并通过引入注意力机制来捕获实体类别和三元组关系之间的潜在关联,自动地学习实体的不同类别对某种特定关系的不同重要程度,从而简化了人工制定规则这一繁琐的过程,更高效地利用实体类别信息进行知识表示学习。通过实验表明,TEKRL模型在链接预测和三元组分类任务的各项指标上都取得了显著提升,尤其是在实体预测任务中,与其他方法相比,Hit@10指标提升了约7.2%,MeanRank指标相对提升了约23%,表明了该模型可以有效地利用类别信息来更好地进行知识表示。
(2)提出一种利用实体类别信息生成负样本的方法TENS。定义了实体类别相似度的概念,并基于此提出了一种提升模型负样本质量的负采样方法。该方法将类别相似度作为选择替换实体的依据,并对类别相似度排序得到生成负样本的待替换实体序列,通过对待替换实体序列进行划分以及根据类别相似度对各划分区域设置不同的采样概率来实现高质量的采样。通过实验表明,加入了TENS负采样方法后,模型的性能在原有的基础上取得了进一步的提升。其中,Hit@10指标进一步提升了1.2%,MeanRank指标进一步提升了3.9%,表明了所提出的负样本生成方法可以有效地提升模型的学习能力。
随着对知识表示学习研究的不断深入,一些研究学者将工作重心从改进模型本身转移到了除此以外的其他方面,包括多源信息融合以及负采样等。本文着眼于这两个方面,提出了一种新颖且有效的模型,通过采用注意力机制去捕获其他方法中人工制定的规则所涵盖的信息,解决了一些模型在融合实体类别信息时需要引入额外规则的问题,从而简化模型并提升模型的普适性。并且,为使得多源信息得到充分的利用,填补负采样工作几乎没有用到多源信息的空白,本文提出了一种利用实体类别生成高质量负样本的方法,以此提高模型性能。本文主要成果如下:
(1)提出一种融合实体类别信息的知识表示学习模型TEKRL。在引入多源信息的同时,解决了其他模型在使用实体类别信息时需要引入额外规则的问题。该模型构建了基于结构和基于类别的两种实体表示,并通过引入注意力机制来捕获实体类别和三元组关系之间的潜在关联,自动地学习实体的不同类别对某种特定关系的不同重要程度,从而简化了人工制定规则这一繁琐的过程,更高效地利用实体类别信息进行知识表示学习。通过实验表明,TEKRL模型在链接预测和三元组分类任务的各项指标上都取得了显著提升,尤其是在实体预测任务中,与其他方法相比,Hit@10指标提升了约7.2%,MeanRank指标相对提升了约23%,表明了该模型可以有效地利用类别信息来更好地进行知识表示。
(2)提出一种利用实体类别信息生成负样本的方法TENS。定义了实体类别相似度的概念,并基于此提出了一种提升模型负样本质量的负采样方法。该方法将类别相似度作为选择替换实体的依据,并对类别相似度排序得到生成负样本的待替换实体序列,通过对待替换实体序列进行划分以及根据类别相似度对各划分区域设置不同的采样概率来实现高质量的采样。通过实验表明,加入了TENS负采样方法后,模型的性能在原有的基础上取得了进一步的提升。其中,Hit@10指标进一步提升了1.2%,MeanRank指标进一步提升了3.9%,表明了所提出的负样本生成方法可以有效地提升模型的学习能力。