连续控制强化学习中的泛化能力提升

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:jikexue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习以马尔可夫决策过程为基础,普遍适用于各类序列决策与规划问题的建模,因此在机器学习研究中受到了越来越多的关注,并部署应用在一些现实世界场景中。然而,大量研究证据表明,通过强化学习训练得到的模型在面对不同的环境动态时缺乏足够的泛化能力:当训练环境包含一定的随机性时,强化学习模型在该环境中的表现往往具有很高的方差;当测试环境与训练环境存在微小差异时,在训练环境上表现良好的强化学习模型反而在测试环境中表现一落千丈。由此可知,泛化能力的缺乏为强化学习在现实世界的应用带来了新的挑战。在连续控制任务的背景下,本文将对强化学习的泛化能力问题进行系统性的研究。本工作的出发点在于,强化学习中泛化能力问题的主要原因,在于模型过拟合于一些具有较高价值估计、但面对随机性或环境变化缺乏稳定性的状态,在这些状态上进行策略迭代会降低模型的泛化能力。基于这种理解,本文提出在贝尔曼策略迭代的过程中对奖励函数加入状态稳定性正则,以此削弱具有较高价值估计但缺乏稳定性的状态的价值。由于本文采用最优策略与受到对抗扰动的最优策略之间的KL距离作为正则函数的定义,该方法也可以被认为是一种对抗训练的形式。为了便于在深度强化学习算法中对状态稳定正则函数进行高效准确的估计,本文通过数学推导得到了KL距离的下界形式。该下界具有非常简单的结构,满足马尔可夫决策过程对奖励函数的有界性假设,几乎不会为训练带来额外的计算量负担,可以非常容易地与各种模型强化学习算法相结合。此外,使用正则函数进行策略迭代时,算法的收敛性可以在理论层面上得到保障。本文以连续控制任务上较典型的TD3算法作为基准,在此基础上提出了正则化的TD3算法SIR-TD3,并在六个不同的连续控制任务上验证了正则函数对模型带来的影响。实验结果一致表明,在训练环境中,本文提出的正则化函数可以显著地降低模型的表现方差;而在加入了扰动的测试环境中,带有状态稳定性正则函数的模型比普通强化学习模型表现更加稳定,这证明了本文提出的正则函数可以有效地提高模型的泛化能力。
其他文献
2011年扒窃型盗窃罪单独入刑后,刑法理论界对“扒窃”是否有必要单独入刑,“扒窃”的行为特征、入罪数额、犯罪形态等方面都做了深入探讨,也有一定的研究成果。但在司法实践中,扒窃型盗窃罪在量刑方面的适用存在不均衡的问题,对扒窃数额极低而仍然被判处有期徒刑的相关报道引起了公众的恐慌和不安全感。由于学界对扒窃型盗窃罪的关注主要从法律规定出发,鲜有基于实践数据对其加以研究,理论成果是否有效的解决了司法实践中
内部组织作为组织领域研究的重要组成部分,其管理效能的实现与持续提升日益成为当前理论研究的热点。内部组织管理效能的持续提升一方面是企业整体战略目标实现的有效集成,另一方面也是推动其自身持续化成长和发展的关键着力点。随着从动态的角度来观察和研究企业内部组织已经成为当前组织研究和管理研究领域的新热点,学者们不再重点关注内部组织的形态应该“是什么”,此方面的研究已经较为成熟,更多等同于内部组织结构的研究(
随着互联网技术、网络技术和计算机控制技术的快速发展,在线教学已经成为一种重要的教育方式。传统的实验方式受时间、空间的限制,已经不能很好地满足当下实验的需要,更无法
近年来,布洛芬(ibuprofen,IBP)作为使用最广泛的非甾体抗炎药(NSAIDs)之一,已经成为一种新型污染物,在污水、地表水、沉积物、地下水和海洋环境中被广泛检测到,对人类健康和生态
人物对话中往往体现了人与人之间的社会关系。在人际关系中,权势关系是最重要的一种。小说人物角色之间的权势关系主要是通过对话来展现、建立和维系的,因此在小说对话翻译中
刑事意见证据规则是证据规则体系中的重要内容,该规则要求区分证人提供的事实和意见,防止证人提供的意见影响法官的裁判。2012年在司法解释层面确立了刑事意见证据规则1。但是长期以来,刑事意见证据规在理论界和实务界没有得到应有的重视,对于意见证据规则的研究往往不够深入,实践中大量意见证据进入刑事裁判,刑事意见证据规则基本虚化。本文立足于意见证据规则的基础理论,对于意见证据规则在我国的司法现状展开考察,分
环氧树脂(EP)因其优异的绝缘性能,良好的力学性能、热和化学稳定性,而被广泛应用于航空航天、电子仪表、绝缘材料等领域。随着科学技术的不断进步,许多高新技术领域对环氧树脂
改革开放以来,我国社会组织出现明显增长,随后我国提出了“双重管制”,即社会组织受到登记管理机关和业务主管单位的双重管理,对社会组织的发展进行规范和严格管理。党的十七
聚乳酸(poly(L-lactic acid),PLLA)是一种半结晶聚合物,具有出色的机械性能、生物相容性和可生物降解性,是符合国家发展需求的新兴绿色塑料。纯PLLA的结晶度较低且结晶速率较
齿轮是国家工业体系中重要的机械零件,广泛应用于汽车、船舶、航空航天、兵器等领域,每年需求量不断上涨。随着科学技术的不断发展于创新,现代设备对齿轮精度的要求也越来越