基于知识库的开放域自动问答方法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:zl8566102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于知识库的自动问答系统是指能够接受用户以自然语言形式描述的提问,并能从大规模知识库中查找或推断出答案的信息检索系统。自动问答广泛应用于阅读理解和聊天机器人等领域,将会被作为下一代搜索引擎的基本形态。传统的问答系统依赖于收集而成的问题与答案的语料库的规模,在面向开放域上的问题时难以找到适当的答案,问答系统的性能严重下降。快速发展的知识库储备了大量的知识条目,如何利用知识库生成问题的答案成为本领域的研究热点。研究的问题主要集中三个方面:(1)如何从知识库中寻找问题答案的知识点;(2)如何根据知识点生成自然语言形式的答句;(3)如何通过多跳推理机制得到答案的知识点。针对上述问题,本文研究基于知识库的自动问答生成神经网络模型,并实现面向开放域的自动问答系统。主要的贡献总结如下:(1)设计实现基于TransE的知识库语义表示方法和答案生成模型。由于用户提出问句是文本形式的,而知识库中的知识是以实体-关系-实体形式组织的结构化文本,与问句存在语义表示上的鸿沟,针对这个问题,我们设计实现基于TransE模型的知识库语义表示方法,通过利用知识库三元组的头部实体与属性关系获取尾部实体作为答案的知识点。具体的,首先用问句中的实体初始化状态向量,然后预测属性关系,最后通过状态向量与预测的属性关系加和得到问句的答案。在问句的命名实体识别中,本文实现了基于Bi LSTM+CRF的命名实体识别模型。在公开数据集World Cup2014上评测结果显示,准确率达到85.1%,召回率达到87.3%,F1值达到86.1%,与基线模型相比,性能得到了一定的提升。(2)设计实现生成自然语言句子答案的自动问答模型。自然语言形式的句子更符合人们日常交流习惯,如何将知识库中检索到的单词级或短语级的答案转换成自然的句子成为当前自动问答的一个挑战。针对这个问题,本文采用具有复制机制的混合神经网络模型,在生成答案句子时,设计三个模型预测当前时刻的生成词分别来自问句、知识库、词汇表的概率。在公开数据集Gen QA上评测结果显示,BLEU值达到0.43,与传统方法相比提升了0.01。(3)设计实现多跳推理机制的自动问答模型。自动问答中的另一个挑战是涉及多跳推理的答案生成,简单问句通常检索知识库中的一个三元组即可得到答案,但是复杂问句检索一个三元组难以直接得到答案,需要对多个相互关联的三元组推理才能得到答案。针对该问题,本文设计实现融合多跳推理机制的自动问答模型。我们在上述1)的基于TransE的答案生成模型上设计循环迭代机制,通过引入问句语义表示向量和答案生成状态向量并预测的属性关系对其进行更新,获得每轮的答案和下一轮的问句表示,直至得到最终答案。另外,由于开放域上的问句表达与知识库的属性关系在表达上存在语义鸿沟问题,导致答案获取覆盖率偏低。针对该问题,本文在问句语义表示向量和知识库之间引入注意力机制,使得问句表示更新时能够关注知识库的表达。在公开数据集Path Question-2H/3H上评测实验结果表明,准确率达到0.989、0.972。注意力机制的引入提升了融合多跳推理的自动问答模型的准确率。本论文围绕开放域上自动问答生成任务,设计实现基于TransE的知识库语义表示方法和答案生成模型、自然语言句子答案的生成模型和多跳推理机制的自动问答模型,公开数据集上的评测实验结果验证了本论文所提模型的有效性。
其他文献
目前我国正处于高速发展时期,高速公路和高速铁路对桩承式路堤具有较大的技术需要。对于路基工程而言,桩承式路堤具有明显的优势,其能有效地控制地基地沉降和侧向变形,可快速填筑施工,大大缩短施工工期。土拱效应是桩承式路堤的主要工作机制,目前有多种模型。然而,对于土拱效应随桩间土下沉过程演化的重视还不够,对于张拉膜效应与土拱效应之间的耦合关系也缺乏深入研究。采用课题组自制的多功能土工模型试验箱开展了一系列加
随着全球导航卫星系统(Global Navigation Satellite System,GNSS)的发展和各国多个导航系统的建设,用户可以利用多个GNSS卫星星座的观测数据,这使得在定位解方案中卫星几何
目的:对合并轻度焦虑的糖尿病前期患者进行心理干预,改善患者的焦虑情绪,提高患者在饮食、运动、吸烟、饮酒方面的自我管理能力,改善患者的糖代谢情况。方法:1.选取内蒙古自治区鄂尔多斯市准格尔旗魏家峁镇中心卫生院新诊断的合并轻度焦虑的糖尿病前期患者男女各50例。糖尿病前期诊断标准为WHO(1999年)标准:(1)空腹血糖受损:空腹血糖≥6.1mmol/L、<7.0mmol/L。(2)糖耐量异常:口
目的:糖尿病(Diabetes mellitus,DM)是一种高度流行的代谢性疾病,其致病因素复杂多样、发病机制不清,给社会及患者家庭带来沉重的负担。而血管钙化(Vascular calcification,VC)是2型糖尿病(T2DM)所致心血管病变的关键病理改变,也是其致死和截肢的主要原因。在T2DM血管钙化性病变过程中晚期糖基化终产物(Advanced glycation end-produ
目的:本研究以“治未病”理论为指导,联合上海市中医医院、上海中医药大学附属曙光医院,针对不同复感儿的体质,采用中药调理进行干预,并辅以耳穴贴压外治疗法,探讨耳穴外治法对于改善复感儿病情、病程、病种三方面的临床疗效优势,并观察其对复感儿精神、面色、饮食、二便等症状的改善情况。同时,通过对入组的复感儿童一般资料及体质的调查研究,探讨上海市部分地区反复呼吸道感染儿童的体质分布情况,并探索影响复感儿体质形
随着我国经济建设的快速发展,高速公路工程也日益增多,尤其是中西部地区,更加需要通过发达的交通来带动当地的经济发展。滑坡是我国西北地区常见的地质灾害,由于岩土体复杂的结构组成以及工程特性,使得滑坡灾害难以预料。陕西省渭滨区是一个滑坡高发区域。渭滨区苟家岭滑坡属于古滑坡,通过收集边坡的测绘与勘探、试验等资料,采用理论计算以及数值模拟的方法,深入研究古滑坡的形成机理以及稳定性状态。主要研究成果如下:(1
《刑法修正案(九)》增设了从业禁止制度,旨在通过切断行为人与其从业环境之间的联系,预防职业再犯。该制度作为一种顺应实践要求而创设的全新制度,在一定程度上弥补了刑罚种类的不足,丰富了我国的刑事制裁体系。但是,从业禁止在司法适用中因为缺乏相关配套司法解释与实施细则,也产生了一系列的问题。本文运用实证分析方法,对“中国裁判文书网”2016—2018年公开的375例关于从业禁止的判决书进行实证研究,总结从
地球大气与我们的生活生产密切接触且息息相关,水汽是地球大气中含量最为丰富的一种温室气体,其在维持地球的生命生存、温度变化和水文循环等方面中扮演着十分重要的角色。大
N,N-二亚硝基五亚甲基四胺(DNPT,发泡剂H)作为一种性能优良的发泡剂而广泛应用于橡胶等产业中。当受到温度或者杂质等影响时DNPT将会变得不稳定,一旦出现不受控的分解,就极可能
乡镇纪检监察组织是纪检监察系统最基层的组织,在保持政治稳定、服务经济发展、保障群众利益方面发挥着重要的作用,是推动我国农村基层党风廉政建设和反腐败工作的最前沿阵地,作为实现纪检监察机关有效治理的基础机构,有效发挥其职能,对我国党风廉政建设以及反腐等工作而言都具有十分重要的地位。本文从理论和实践的需要出发,运用寻租理论以及有关理论为支撑,通过大量查阅有关研究成果,并对对应经验加以总结与参考,利用对山