论文部分内容阅读
自然语言问答系统是自然语言处理领域的一个经典且富有挑战的任务,也是人工智能的一个重要应用方向。因此,解决自然语言问答中的一些瓶颈问题是相关领域当下的研究热点之一。基于知识库的问答作为问答系统研究的一类代表性方法借助了知识库提供的丰富知识资源。另一方面,深度学习技术近年在多个领域取得了成功应用。因此,学者们将深度学习技术也引入到知识库问答的研究工作中,获得了比传统方法更好的效果。即便如此,现有工作依然存在对知识的理解和利用不够充分的问题。为此,本文针对知识库问答中的主题实体链接、问题编码、候选实体编码和候选关系编码四个重要环节,通过融合字符、单词、实体等多个粒度上不同的知识信息,更充分地利用知识库所提供的知识,从而进一步提升了知识库问答系统的效果。具体地,本文的创新与贡献如下。 (1)提出了融合符号、类别与语义特征的实体链接技术。本文将主题实体链接建模成二分类问题处理,并从符号、实体和类别三个粒度进行特征提取。在符号粒度上,提取问句与实体在字符串形式上的相关特征;在实体粒度上,通过TransD算法对知识库三元组进行训练学习得到基于知识图谱表示学习的实体向量表达,其中不但包含实体本身的语义信息,而且还包含了知识库中相关的结构信息;在类别粒度上,通过训练GRU网络多分类模型得到问题与实体类别之间的概率值来反应问题与实体类别的关联度,进而得到候选实体与问句在类别上的关联程度,有效地解决同名候选实体问题。通过融合上述三个粒度的知识,提升了主题实体链接的性能。在SimpleQuestions数据集上的实验表明,该方法在主题实体链接环节上取得的效果明显优于现有的方法。 (2)提出了基于多粒度知识编码的问答匹配技术。为了在知识库问答中问题与答案的准确匹配,本文在问句编码、候选实体编码和候选关系编码中提出了融合多粒度知识的编码方式。在问句编码中,对实体Mention所在的位置嵌入该实体基于知识图谱表示学习得到的向量表达,与问句中的其它词一同进行序列化编码,进一步通过引入注意力机制得到该问题的编码。该方法使问句编码包含了问句本身以及问句所包含的实体在知识库中的结构两个方面的语义信息。在候选实体编码中,通过循环神经网络对候选实体对应的字符、词语和类别分别进行序列化编码,进而将其与通过TransD算法得到的实体向量表达进行拼接得到候选实体的编码。与候选实体的编码方式类似,候选关系的编码也从字符、词语、类别和知识图谱表达四个粒度进行结合来得到其编码表达。通过融合多粒度知识得到的候选实体编码与候选关系编码能够在与问句编码计算得分时提供更丰富的信息,因此提高了问句与正确候选实体-候选关系匹配的准确率。实验表明,在知识库问答公开数据集SimpleQuestions上,本文方法对比现有的一些方法取得了较为显著的性能提升。 (3)实现了基于多粒度知识编码的知识库问答系统。本文构建了知识库问答系统,并将上面的实体链接技术和问答匹配技术应用到该系统中,提高了系统回答问题的准确率。该系统所使用的知识库由Freebase、Wikidata和Wikipedia三个知识图谱整合而成,包含的知识更加广泛。系统测试表明,基于多粒度知识编码的知识库问答系统在回答问题的准确率以及系统的性能上都有着很好的效果。