论文部分内容阅读
随着互联网的普及,数据量的飞速增长使信息越来越多,人们对信息的精准度要求也越来越高。传统的搜索引擎基于关键词检索,返回的是排序后的相关文档,仍需用户手动检索出答案。区别于传统搜索引擎,问答系统能够接收自然语言问题,并返回简洁而准确的答案。面向知识图谱的问答系统是问答系统的重要分支,它能够根据知识图谱中的结构化知识回答自然语言问题。知识图谱需要特定的查询语句进行访问,由于自然语言与结构化查询难以直接对应,该映射过程成为研究中的难点。基于规则和词汇映射的解决方案需要大量人力,覆盖率较低且缺乏灵活性。传统的机器学习依赖于人工制定特征的有效性,效果仍有待提升。近年来,深度学习发展迅猛,为自然语言处理领域带来了诸多突破,其中基于神经网络的序列到序列模型被证实在序列转化任务中具有显著的效果。本文依托深度学习的序列到序列模型将问题映射为知识图谱查询语句,在此基础上本文设计并实现了基于深度学习的知识图谱问答系统。本文的系统划分为Web服务模块、问题预处理模块、问题理解模块、查询语句生成模块、答案生成模块以及系统日志与知识图谱存储模块。问题预处理模块对问题进行句法分析、实体识别等。问题理解和查询语句生成模块对序列到序列模型进行改进,用于将问题映射为查询语句。答案生成模块根据查询语句查询知识图谱获取答案信息。针对上述映射过程,本文从句法结构入手,提出了基于分层注意力机制的知识图谱问答模型(Hierarchical Attention Mechanism based Model for Question Answering over Knowledge Graph,KGQA-HAM),该模型由编码结构和解码结构组成。其中,编码结构编码问题依存树各层子树,在问题与查询语句之间建立映射关系。解码结构基于分层注意力机制提取问题实体或关系语义,将其融入神经网络中生成查询语句。本文进行了对比实验,实验结果表明,本文提出的KGQA-HAM模型显著提高了将问题映射为查询语句的准确率及问答系统的F1值。通过系统测试,本文设计实现的问答系统功能和性能均符合预期效果。