基于深度强化学习的任务型对话策略研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zs001444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对话策略是任务型对话系统中对话管理的子模块,它的主要任务是根据用户和系统当前的对话状态信息决定对话系统下一步的响应动作。由于对话系统具有序列决策的特性,因此目前大量的研究集中在基于强化学习的对话策略上。然而基于强化学习的对话策略模型目前仍然存在下列问题:(1)任务型对话系统的正向奖励十分稀疏,系统要获取学习效率高的成功对话样本和正向奖励值较为困难。因此系统需要和用户或用户模拟器进行大量的会话才能建立有效的策略,策略收敛很慢;(2)对于动作空间规模较大的对话任务,策略探索困难,系统决策时容易发生错误,导致最终对话策略的成功率较低。针对问题(1),本文提出融合反向课程和目标距离奖励塑造的策略学习方法。结合用户目标定义任务的中间难度状态,规划系统学习过程,确保系统在学习早期可以快速获得正向奖励进行高效的学习。同时定义目标距离的计算方式并引入目标距离评估模型,预测当前状态到对话成功状态的距离,通过相邻状态的目标距离差值来引入额外奖励信息进行奖励塑造。在两个任务型对话任务中的实验结果表明,该方法有效缓解了正向奖励值稀疏的问题,提升了策略学习效率。针对问题(2),我们对失败的对话进行分析,发现对话中常常出现系统答非所问或者未及时回复用户提问的情况。因此本文提出基于动作空间分解的对话策略学习模型,在原本大规模的动作空间基础上分解出一个顶层抽象动作空间,在两个动作空间上分别学习Q函数。利用顶层抽象空间规模小,学习效率更高的特性来辅助策略决策过程,降低决策难度,提高策略的成功率。在两个任务型对话任务中的实验结果表明,本文的方法有效提高了对话的成功率。
其他文献
氨选择性催化还原(Selective Catalytic Reduction with Ammonia,NH3-SCR)是国内外脱除固定源氮氧化物(NOx)最为广泛而有效的方法之一,其技术核心是催化剂。低温NH3-SCR技术因其催化剂在反应温度低于250℃时具有较高的NOx转化率和较宽的活性温窗而具有很好的工业应用前景,但实际烟气中残留的SO2和H2O易使低温SCR催化剂中毒失活的问题尚未得到有效
纤维素是一种天然聚合物,自然产量丰富、可再生,近年来围绕纤维素的纳米化制备及纳米纤维的应用成为国内外的研究热点,纳米纤维素正以它奇异的特性为生物基新材料的发展提供了新的机遇。但由于纤维素自身具有多晶型结构,所以纳米化后的纤维素纳米晶(CNC)其分子链排列方式和构型也不同,不同晶型结构CNC的表面活性、表面润湿性能和可及性等方面均存在较大的差异。本论文围绕CNC的改性与晶型转化,然后将不同晶型和改性
柑橘皮是柑橘加工产业的副产品,是优质的膳食纤维来源,其膳食纤维具有优异的理化性质和生理功能。我国大部分柑橘皮未得到有效的利用,因此探究一种从柑橘皮中制取高品质膳食纤维的简便方法具有重要的意义。本研究以柑橘皮为原料,采用碱性过氧化氢处理和高速剪切处理制备了富含果胶的膳食纤维AHP-CF(Alkaline hydrogen peroxide treated citrus fiber)和H-CF(Hom
传统石油基塑料的大量使用给生态环境和人体健康带来严重危害。开发新型可降解环保材料对于我国发展绿色低碳经济具有十分重要的社会和现实意义。淀粉作为一种天然高分子聚合物,具有来源广泛、价格低廉、使用安全、可塑性加工等优点,以淀粉为原料制备的可降解材料被认为是传统塑料最具潜力的替代品。然而,淀粉分子中存在的大量羟基基团,使淀粉基材料通常具有较强吸湿性,在高湿等恶劣环境中,材料性能损失严重,限制了相关产品应
随着现代社会的高速发展,电力需求与日剧增,国内外建设了越来越多的核电站,而随着切尔诺欧贝利、福岛等核事故的发生,社会日益认识到核安全的重要性。220k V电源供电系统作为F核电站的外部电源,通过220k V输电线路(以下简称A线)给F核电站供电,主要用于保证F核电站永久、应急和公用辅助设施的永久供电,当F核电站在发电机停运或应急情况下失去主电源后,永久、应急和公用辅助设施切换至220k V电源供电
微观物质形态被运用在艺术设计的各领域中,这种应用趋势符合艺术审美意识的历史演绎,也是现代工业的极端发展引发的自然意识、文化思潮、物质文明发展等因素的使然。但是目前学术界对于微观物质形态情境化的研究尚无相关研究成果,有待我们进一步研究。本文旨在探讨如何结合情境认知理论、语义差异法、PANAS情绪量化表与SYM定义情绪的标准化工具,建立微观物质形态与情境认知理论的映射关系,最终应用在婚庆装置设计上。本
随着下一代光纤通信网络的发展,光纤通信系统对信道容量的要求也越来越高。光放大器成为必不可少的放大器件,引起人们的广泛关注。光纤喇曼放大器(FRA)因为其具有宽带宽、低噪声、可实现分布式放大等一系列优势成为现代光纤通信中关键技术,在密集波分复用光通讯系统中得到广泛应用。增益特性和噪声分布一直是人们对光纤喇曼放大器的研究重点,人们提出了很多方案来改善这两项性能。本文紧紧围绕着多波长时分复用(TDM)泵
骨修复是十分精细且复杂的过程,涉及骨环境生态位细胞相互影响的细胞行为,细胞所处的微环境中复杂的信号分子共同调控炎症、血运重建、骨组织的矿化和重塑过程。间充质干细胞(MSCs)的研究一直是组织修复领域的热点。近年来,越来越多的研究发现干细胞主要通过旁分泌作用发挥其功能,其中外泌体是一种重要的旁分泌产物,内含多种生物活性物质,在细胞间的信息传递过程和细胞行为调控过程中发挥重要作用。随着研究的深入,外泌
可降解聚合物可有效解决传统聚合物带来的白色污染、资源短缺等问题,但其较差的气体阻隔性限制了推广使用。氧化石墨烯具有气体不渗透性、超高纵横比、易于功能化等优势,是增强聚合物阻隔性能的理想填料。本论文采用极性分子链对氧化石墨烯进行共价接枝改性,制备高阻氧改性氧化石墨烯/聚乙烯醇纳米复合材料,对其进行表征测试,研究接枝链长度和结构对复合材料微观结构和阻氧性能的影响规律;在此基础上,利用分子模拟技术构建复
为了应对来自资源环境和气候的挑战,世界各国正在大力发展可再生能源,但是大规模分布式可再生能源并网会造成电能高效消纳困难、电力系统安全运行困难等。2012年,一种基于电力弹簧(Electric Spring,ES)的快速自动需求响应技术被提出,该技术在稳定电网电压、谐波抑制和功率平衡等方面的作用已经得到验证,同时有利于减少储能、提升电力系统调节能力、促进可再生能源进一步发展,因此受到广泛关注。现有大