面向连续控制任务的新型深度强化学习算法

来源 :吉林大学 | 被引量 : 0次 | 上传用户:qq382585541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的快速发展,面向深度强化学习的理论与应用研究备受关注,如:博弈推理、游戏对战以及最近的核聚变控制等。其中,强化学习技术性能的优劣决定了投入实际应用的难易程度,以及能产生的效益水平。然而,现有的深度强化学习算法多使用深度神经网络估计策略和价值,在解决连续控制任务时易产生累积估计误差,此误差会严重影响算法的高效性和鲁棒性。此外,现有的方法在解决估计误差问题时,还面临结构冗余、误差消除不彻底等问题。解决上述问题对提升深度强化学习算法在解决连续控制问题方面具有重要意义。基于上述问题,本文面向连续控制任务提出两种新型深度强化学习算法:(1)提出了基于行动者-评判者框架的目标价值迭代算法QVDDPG(QV Value Deep Deterministic Policy Gradient)。该算法通过设计新型目标函数,构建鲁棒的神经网络结构,解决深度强化学习所面临的收敛速度和鲁棒性问题。具体而言,首先,基于DDPG与TD3算法,在评判者模型中给出一种目标价值迭代更新方法,提高价值估计的精确程度与收敛速度;其次,在行动者模型中通过约束策略梯度的更新,提高策略以及其带动价值网络估值的稳定性;最后,建立基于隐藏状态的连续动作空间网络,提高策略对连续状态的敏感性。实验结果表明:QVDDPG算法能够充分利用深度神经网络架构,并提高算法的收敛速度和策略更新的鲁棒性。(2)提出了基于分布式价值的自适应误差控制算法DCSAC(Distribution Clusters Soft Actor Critic)。该算法通过设计一种新型的误差控制方法,融合适应性的残差网络结构,解决分布式强化学习所面临的估值准确性问题。具体而言,首先,在评判者模型中采用分布式的形式对价值进行估计,使用分位数损失函数和Wasserstein距离更新价值,并通过本文提出的基于逆向价值差的价值截断方法控制价值估计过程;其次,在行动者模型中提出使用一种排序基线方法控制梯度更新过程;最后,融合新型的深度神经网络架构,提高预测分布式价值和策略的精度。实验结果表明:DCSAC算法在不同任务环境中能够自适应地提高网络利用率、价值函数估计的准确度,提高算法在连续控制任务中的综合性能。
其他文献
<正>国网四川电力资阳市雁江供电分公司聚焦“用上电、用好电、好交费、易沟通”四方面,以“三个责任”为抓手,为客户打造便捷高效的用电报装、安全可靠的电力供应、方便优质的交费服务、准确及时的信息交互服务,全方位提升客户服务获得感。2021年以来,国网四川省电力公司资阳市雁江供电分公司(以下简称“雁江供电公司”)以社会责任视角透视解剖、诊断和改善服务瓶颈,在供电服务工作中创新应用社会责任工具箱,形成了与
期刊
创意戏剧和绘本阅读融合的基础是戏剧活动中有着多重意义的建构,创意戏剧活动可以扩展绘本的叙事空间。二者融合的策略是以绘本阅读经验为基础,在阅读中注重绘本的叙事节奏、体会图画书叙事的魅力、扩展学生的阅读视野,同时让学生从戏剧游戏与即兴扮演的技巧中初步体验绘本与戏剧融合的魅力,通过初级创意戏剧课程实践为他们奠定未来课堂的基础。
为解抗滑桩-预应力锚索框架组合结构在地震作用下的受力机制,基于四川省东北部某滑坡治理工程,采用MIDAS/GTS有限元程序建立抗滑桩-预应力锚索框架数值模型,采用位移时程曲线法对加固边坡进行稳定安全系数计算,而后输入不同峰值地震加速度(PGA)的Wolong地震波,分析了加固边坡的加速度响应、桩锚结构内力变化以及荷载分担规律。研究结果表明,加固边坡的稳定安全系数满足规范要求,在地震作用下其上部可能
<正>中国台湾从20世纪80年代开始戏剧课程实验,到现在已经进入比较成熟的阶段。那么台湾的戏剧课程在课堂上是如何呈现的?台湾高雄市教育局艺术与人文领域辅导员吴青烨(叶子),应邀来到了觅渡教育集团,和孩子们一起共同上演了一出《巫婆来了》。巫婆来了师:很高兴这节课叶子老师来给大家上课。师:(拿出鼓)这是什么?
期刊
<正>大部分神话传说都或多或少地包含着历史的真实。神话发生和发展于“人类智慧的早期儿童状态之中”,“作为思维发展的证据,作为很久以前的信仰与习惯的记录”,“也像人类思想的一切其他表现一样是以经验作基础的”,不同程度地“保留了历史真实性的内核”,是构成“各民族历史的素材”。然而,通过神话传说保存下来的信息,毕竟不能与有史以来的文字记载材料画等号。因此,我们必须既看到神话传说的历史研究价值,又不能拿一
期刊
供电公司开展网格化管理,力争做到服务零距离,管好一张网,服务广大民众,以网格化方式管理作业人员。构建供电服务管理体系,加强故障抢修,采用网格化抢修模式,提高供电服务能力,充分运用网格化模式指导基层人员,发挥出客户经理及网格化模式的有效性。本文针对供电公司客户经理"网格化"供电服务管理体系构建做出具体分析。
随着科技的发展,机器人越来越广泛地应用于各行各业,机械臂作为机器人的一个主要分支也越来越多地出现在科研、医疗、工业等场景中,承担重要的角色。其中,抓取功能作为机械臂的主要应用需求,逐渐成为机械臂控制的研究热点。面对日益复杂的任务,传统的控制方法已难以满足机械臂的应用需求。深度强化学习(Deep Reinforcement Learning,DRL)算法以强化学习理论为基础,结合了深度学习理论,是目
“问题”是思维生发的起点,“问题链”是思维发展的支架,依托“问题链”来促进学生思维发展和知识增长,是新课改的重要成果之一。科学设计并应用“问题链”来推进高中英语阅读教学,有利于实现良好的教学效果。一线高中英语教师可以尝试利用“思维链”来架构英语阅读教学新课堂,总结并提炼设计“问题链”的策略,为推动英语教学的发展作出一点新的贡献。
2021年发布的限电令与提出的碳达峰、碳中和等概念成为了时代热词,为了减少环境继续遭到破坏,极端气候变化给全球带来的危害,中央经济工作会议已将做好碳达峰、碳中和工作列入今年要抓好的8大重点任务之一。想要完成这些任务,水电行业的发展就是其中关键的一环。但行业发展好需要企业发展好,水电行业投产大年并非水电企业发展大年。由于水电站建设周期长,投资巨大,许多中、小型水电站建成后并未产生良好的经济效益,所以
《红楼梦》诠释了伦理关系中僵化的“孝”思想所造成的负面影响以及进步的“谏”思想所带来的正面价值:从家庭伦理关系的层面来看,孝道伦理不断强化,谏诤精神逐渐削弱,顺亲至上成为必须遵从的道德要求,单向的打击和绝对的压制造成父辈与子辈双重的人生困境;从朋友关系的层面来看,朋友之间真心相待、勇于责善,这种积极的谏诤精神为传统的伦理关系注入了新鲜血液,使得《红楼梦》中的“朋友”一伦表现出超越等级秩序、平等交流