基于多粒度知识编码的知识库问答

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zml19881209
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言问答系统是自然语言处理领域的一个经典且富有挑战的任务,也是人工智能的一个重要应用方向。因此,解决自然语言问答中的一些瓶颈问题是相关领域当下的研究热点之一。基于知识库的问答作为问答系统研究的一类代表性方法借助了知识库提供的丰富知识资源。另一方面,深度学习技术近年在多个领域取得了成功应用。因此,学者们将深度学习技术也引入到知识库问答的研究工作中,获得了比传统方法更好的效果。即便如此,现有工作依然存在对知识的理解和利用不够充分的问题。为此,本文针对知识库问答中的主题实体链接、问题编码、候选实体编码和候选关系编码四个重要环节,通过融合字符、单词、实体等多个粒度上不同的知识信息,更充分地利用知识库所提供的知识,从而进一步提升了知识库问答系统的效果。具体地,本文的创新与贡献如下。  (1)提出了融合符号、类别与语义特征的实体链接技术。本文将主题实体链接建模成二分类问题处理,并从符号、实体和类别三个粒度进行特征提取。在符号粒度上,提取问句与实体在字符串形式上的相关特征;在实体粒度上,通过TransD算法对知识库三元组进行训练学习得到基于知识图谱表示学习的实体向量表达,其中不但包含实体本身的语义信息,而且还包含了知识库中相关的结构信息;在类别粒度上,通过训练GRU网络多分类模型得到问题与实体类别之间的概率值来反应问题与实体类别的关联度,进而得到候选实体与问句在类别上的关联程度,有效地解决同名候选实体问题。通过融合上述三个粒度的知识,提升了主题实体链接的性能。在SimpleQuestions数据集上的实验表明,该方法在主题实体链接环节上取得的效果明显优于现有的方法。  (2)提出了基于多粒度知识编码的问答匹配技术。为了在知识库问答中问题与答案的准确匹配,本文在问句编码、候选实体编码和候选关系编码中提出了融合多粒度知识的编码方式。在问句编码中,对实体Mention所在的位置嵌入该实体基于知识图谱表示学习得到的向量表达,与问句中的其它词一同进行序列化编码,进一步通过引入注意力机制得到该问题的编码。该方法使问句编码包含了问句本身以及问句所包含的实体在知识库中的结构两个方面的语义信息。在候选实体编码中,通过循环神经网络对候选实体对应的字符、词语和类别分别进行序列化编码,进而将其与通过TransD算法得到的实体向量表达进行拼接得到候选实体的编码。与候选实体的编码方式类似,候选关系的编码也从字符、词语、类别和知识图谱表达四个粒度进行结合来得到其编码表达。通过融合多粒度知识得到的候选实体编码与候选关系编码能够在与问句编码计算得分时提供更丰富的信息,因此提高了问句与正确候选实体-候选关系匹配的准确率。实验表明,在知识库问答公开数据集SimpleQuestions上,本文方法对比现有的一些方法取得了较为显著的性能提升。  (3)实现了基于多粒度知识编码的知识库问答系统。本文构建了知识库问答系统,并将上面的实体链接技术和问答匹配技术应用到该系统中,提高了系统回答问题的准确率。该系统所使用的知识库由Freebase、Wikidata和Wikipedia三个知识图谱整合而成,包含的知识更加广泛。系统测试表明,基于多粒度知识编码的知识库问答系统在回答问题的准确率以及系统的性能上都有着很好的效果。
其他文献
当前主流的开源框架有Struts、Spring和Hibernate等,它们有着各自的优势。但这些开源框架并不完善,它们对J2EE应用的多层结构的支持各有所长。因此,开发一种新型框架,整合这些开
学位
地球物理观测数据由于野外测线、测点排放不规则往往是不规则分布的,而其数据处理需要预先对不规则分布的观测数据进行网格化处理。因为地球物理数据成像、处理和解释大都是
移动自组网(Mobile Ad hoc Networks,MANET)不依赖于任何基础设施的支持,可以随时随地动态部署。MANET作为普适计算和物联网的基础应用环境,因其具有分布式结构和组网灵活等
随着Internet技术的飞速发展,网络安全问题日益突出,频频发生的网络攻击给我们带来了严重的安全威胁。网络入侵检测是近些年来人们提出的一种新型的主动防御机制,是对抗网络
网络技术的快速发展为IP网络实现多媒体通信提供了基础条件,视频会议、IPTV、多媒体远程教育等宽带网络应用成为热点。视频会议在实用化方面取得了迅速的发展,功能也由原先单纯
学位
随着经济体制改革的深化,企业经营管理发生了根本地变化。企业竞争的焦点也从资金、物质资源的竞争转为人才资源的竞争。人力资源管理已成为企业管理的重要内容。在传统的人力
对于现代企业和政府部门来说,利用计算机系统来提供及时可靠的服务是必不可少的,然而,计算机硬件与软件都不可以避免的会发生故障,从而导致整个应用程序的终止、网络服务的瘫痪等
现代交通带来的巨大压力使得智能交通系统的研究成为热点,而作为智能交通系统重要组成之一的车辆牌照识别(LPR)系统自然成为研究的重中之重。车牌识别技术是一项涉及数字图像
会话初始协议SIP已被第三代移动通信项目组织(3GPP)确定为第三代移动通信系统的IP多媒体子系统域(IMS)的信令协议,并将逐步成为下一代网络(NGN)中的核心控制协议之一。SIP协
随着Internet技术的发展和计算机的广泛应用,基于Internet的电子商务蓬勃兴起,这给传统商务协作带来了机遇和挑战。多Agent系统在电子商务中发挥着重要的作用。目前在电子商