基于对话策略学习技术构建医疗聊天机器人

来源 :南京大学 | 被引量 : 0次 | 上传用户：xzy200611519

【摘要】

：

【作者】

：

陈鹏

【出处】

：

南京大学

【发表日期】

：

2021年04期

【关键词】

：

任务型聊天机器人对话策略学习监督学习深度强化学习公共医疗服务

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自2019年12月以来,新冠肺炎(COVID-19)肆虐全球,世界各地感染和死亡人数急剧增长。至2020年4月中旬,全球累积感染人数逾百万,累积死亡人数逾十万。随着疫情的持续发展,世界各地的研究人员都在试图为这场“战疫”贡献自己的一份力量。本文结合当下全球抗击疫情的背景,应用对话策略学习技术,构建一个应用于公共医疗服务领域的聊天机器人,提供如疫情咨询、热线求助、预约挂号等服务,为全球抗击疫情助力。目前业界已落地并用于抗疫领域的聊天机器人,多数是采用FAQ检索或基于规则的对话策略。本文的创新点在于采用了基于监督学习以及深度强化学习的对话策略学习方法,来应用于构建抗疫聊天机器人的对话策略。对话策略作为聊天机器人最核心的“大脑”,其优劣决定着聊天机器人系统的成败。而基于监督学习以及深度强化学习的对话策略学习方法是目前任务型聊天机器人领域两个热门的研究方向。与基于检索和规则的对话策略相比,以上两种对话策略学习方法因其数据驱动的方式使得聊天机器人的决策更具有灵活性和智能性。本文致力于实现一个服务于公共医疗领域的聊天机器人,提出使用监督学习的方法以及深度强化学习的方法,去解决聊天机器人对话策略的学习问题。以上这两种对话策略学习方法可以使得聊天机器人支持扩展到更多的任务领域,完成更多的服务任务。结合医疗领域中的预约挂号任务,本文对这两种方法的模型设计、模型构建、模型实现、以及这两种方法实现的对话策略性能、优缺点及适用性等方面进行了详细研究与探讨。本文主要涵盖以下内容:(1)基于监督学习方法构建医疗聊天机器人的对话策略。该对话策略学习方法使用的是一个混合编码网络。由于引入了一些人为规则干预,相比于其他基于标准监督学习的方法,该混合编码网络极大程度地减少了训练所需的数据量,同时又保留了推断潜在语义的关键特性。本文基于监督学习方法实现的对话策略会尽可能地去“模仿”语料库中人机对话的方式,该对话策略模型具有轻量且易于实现的优点,并且在小规模数据集上训练后的决策效果也十分不错。(2)基于深度强化学习方法构建医疗聊天机器人的对话策略。该对话策略学习方法使用深度强化学习算法DQN作为一个智能体Agent。与基于监督学习方法学习到的对话策略尽可能去模仿训练语料不同,基于深度强化学习方法学习到的对话策略更加具有探索性和灵活性。本文在训练DQN智能体时采用?贪婪搜索(?-greedy exploration)策略进行探索和利用,尽可能地探索不同对话状态下的奖赏值情况。本文基于深度强化学习方法实现的对话策略模型在完成任务所需的对话轮数和个性化策略探索上皆表现出了不俗的优势。(3)构造对话数据集,验证对话策略学习方法的决策性能。本文结合当下疫情肆虐的背景,构造了一个应用于抗击疫情任务的对话数据集。基于构造的数据集,本文使用以上两种对话策略学习方法训练得到了两个对话策略模型。在测试阶段,两模型皆以超过97.8%的任务成功率完成了预约挂号任务;而在与用户的交互阶段,相比于基于规则的对话策略,使用以上两模型的医疗聊天机器人的决策机制表现得更加高效和智能。

其他文献

基于深度表示学习的推荐技术研究

在大数据时代,人们很难从爆炸式增长的数据中找到有价值的信息。推荐系统应运而生,并在人们的生活中得到了广泛的应用。由于用户和项目是推荐系统中不可缺少的对象,因此如何表示用户和项目在推荐方法中起着重要的作用。通常,推荐方法使用用户历史行为数据来预测用户可能的偏好。如何利用这些稀疏的历史行为数据来表示用户和项目的潜在特征是一个高质量的推荐系统所需解决的重要问题之一。这一问题可以通过组合多种方法和整合多个

学位

推荐系统表示学习对抗学习自动编码器网络嵌入

山东久力工贸有限公司创新管理能力成熟度评价与提升研究

本文以2006年就入选“山东省第一批高新技术企业名单”的山东久力工贸有限公司为研究案例,通过对其创新管理能力进行成熟度评估,明确企业定位,让其通过选择改革路径,提升企业创新管理能力,提升山东久力工贸有限公司在同行业市场中的核心竞争力。首先,在对国内外相关创新管理理论、高新技术企业定位和创新管理特点等理论梳理总结的基础上,总结出创新管理能力和成熟度模型创建的相关理论依据。然后通过调查问卷收集久力工贸

学位

高新技术企业创新管理成熟度成熟度模型评价

PY公司大股东清仓式减持的经济后果研究

随着我国证券市场的快速发展,减持乱象屡见不鲜,尤其以大股东清仓式减持所带来的负面影响特别突出,对资本市场正常运行秩序带来了巨大冲击。尽管监管部门不断出台和完善有关减持规定,使得大股东的减持需求遭到了实质性的减缓,但大股东清仓式减持的现象依旧屡禁不止,所以必须出台相应的制度规范大股东减持,更好的维护市场秩序。PY公司作为中国境内企业在境外上市的第一支环保股,在境外退市后历时八年实现A股上市的公司,而

学位

大股东清仓式减持经济后果

纳米铁强化复相催化过氧化氢降解氯代有机废水的研究

氯代有机物是一种广污染、强毒性、不易降解的有机化合物。大多数的氯代有机物不易溶于水,一旦随水流入水生态环境,其短时间内被自然降解的概率很小,并且氯代有机物会通过生物链进行累积,甚至会在生物体内汇集,因此而污染环境和破坏生态。目前由于现行的方法并存在各种弊端,开发出行之有效的方法迫在眉睫。传统的均相芬顿方法由于需要强酸环境、过量的铁盐并且催化剂无法回收和会产生铁盐沉淀,所以在运用上受到了很大的限制。

学位

氯代有机物纳米零价铁改性24-DCP去除率

大型商场公众责任风险分析及保险研究

随着社会的快速发展以及国家对人民物质精神文化需求的关注,我国大型商场的数量也在不断增加。但是大型商场由于其人员密集,环境复杂,发生事故其影响和后果都十分恶劣,因此大型商场通过投保公众责任险来进行风险转移是一种有效的风险处理手段,同时保险公司对大型商场进行公众责任风险评价及其保险方案的优化也具有重大的现实意义。以往大型商场具体风险因素缺乏综合性、整体性评价,风险不一,往往是一家大型商场的特点,不能代

学位

大型商场公众责任风险模糊综合评判保险方案

基于相关滤波的视觉目标实时跟踪算法研究

视觉目标跟踪技术一直以来都是计算机视觉领域的研究热点之一。基于相关滤波的目标跟踪算法因其突出的跟踪性能、实时性和易实现性在视觉目标跟踪领域受到了极大的关注,尽管如此,在一些特定的场景下仍旧不能达到较好的跟踪效果。本文对基于相关滤波的目标跟踪原理进行了深入研究,总结了其存在的主要问题:一是在目标发生快速变形和旋转时跟踪效果较差;二是存在边界效应和模型退化问题。针对以上两个问题,在保证跟踪实时性的前提

学位

视觉目标跟踪相关滤波颜色统计特征时空正则化ADMM

液体钡锌复合热稳定剂的制备及应用

我国是聚氯乙烯(PVC)的生产和消费大国,但PVC制品热稳定性较差,高温受热时易降解,致使其性能大大降低,需加入一定量的热稳定剂抑制降解。目前常用热稳定剂有铅盐类、有机锡类、金属皂类和稀土类等,而液体钡锌复合热稳定剂因其绿色环保,具有优良的热稳定性、透明性、抗析出性和加工性等特点成为目前研究较多的一种新型金属皂类热稳定剂。本文以异辛酸、油酸、氧化锌、一水氢氧化钡为原料,白油和二乙二醇丁醚为溶剂合成

学位

聚氯乙烯热稳定性液体钡锌复合热稳定剂合成无酚抗析出剂复配

日粮结构与非结构碳水化合物比对辽宁绒山羊养分消化、血液指标和瘤胃发酵的影响

本试验旨在探讨日粮中结构碳水化合物(Structural carbohydrates,SC)与非结构碳水化合物(Nonstructural carbohydrates,NSC)比例即SC/NSC对辽宁绒山羊养分消化、血液指标和瘤胃发酵的影响。本研究共分为两部分。试验一:试验采用单因素随机试验设计,选用1周岁左右体况良好健康的辽宁绒山羊25只(35.8±2.49kg),随机分成5组,每组5只,分别饲

学位

碳水化合物结构辽宁绒山羊养分消化血液指标瘤胃发酵

海南陵水县乡村旅游扶贫研究

近年来,作为脱贫攻坚产业扶贫的主要方式,乡村旅游扶贫受到广泛的关注。从中央到地方,自上而下,一系列政策的出台成为了乡村旅游扶贫的保障和支持。乡村旅游扶贫项目贴近农民、贴近农村,成为了解决农业薄弱、农村空心化、促进农民增收的重要途径。现阶段工作中,我国乡村旅游扶贫工作主要为政府主导,利用国家支持扶贫开发的各项政策、整合资金、统筹发展,促进区域全体范围内脱贫致富。乡村旅游扶贫工作,步入飞速发展的时代,

学位

乡村旅游旅游扶贫政府职能陵水县

新时代山西青年科技工作者责任素质培养研究

青年科技工作者是新知识的应用者、新技术的发明者、新产业的开拓者,是企业竞争力的决定性因素。培养山西青年科技工作者责任素质关系重大,利在千秋,他们对促进山西青年科技工作者成长成才、贯彻落实省委省政府的重大思路、提升山西省青年科技工作者的综合素养、为山西贯彻落实国家创新驱动发展战略提供人才保障、推动山西各项事业和中部崛起的蓬勃发展等有着不可或缺的作用。山西经济转型和丰富的文化资源为山西青年科技工作者提

学位

山西青年科技工作者责任素质培养

基于对话策略学习技术构建医疗聊天机器人

其他学术论文