探索增强深度强化学习方法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:ZT0009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习是近年来人工智能领域最受关注的研究热点之一。强化学习智能体需要在与环境的交互中不断决策来完成特定任务,也就是说,强化学习智能体的训练往往需要大量的样本数据作为支撑。因此,在一些样本数量比较稀少或者样本获得比较困难的任务环境中,通常难以获得令人满意的智能体训练结果,从而限制了深度强化学习在实际问题中的进一步应用。为使强化学习智能体能够快速获得高质量的训练样本,高效的探索方式是一种有效的解决方法。为此,本文分别从两个角度(参数分布化表示与演示辅助训练)来研究如何增强智能体的探索能力,提出了4种探索增强深度强化学习方法,主要工作包括:(1)针对参数分布化表示易于导致算法不稳定的问题,提出基于推断的后验参数分布优化(IPPDO)。一方面,结合概率推断中证据下界的概念,从模型可观测变量与潜变量的角度出发,建立了参数分布与强化学习目标任务之间的对应关系,构建了参数分布优化目标函数。另一方面,通过给参数分布标准差增加一个额外的激活函数来调整参数分布到网络权重的映射方式,实现了参数固定值与参数分布之间的自适应调整,进一步提高了算法的稳定性。此外,IPPDO是一种基于离策略的深度强化学习方法,能够利用经验池等技术有效提高样本利用率,加快智能体学习。(2)针对参数分布在优化过程中易于受到策略梯度的偏差和方差干扰,从而导致学习稳定性和学习效率较低的问题,提出近端参数分布优化(PPDO)。结合元学习算法Reptile中利用网络当前参数逼近真实参数的思想,通过对待学习参数分布进行两次更新来加快学习速度:第一次参数分布更新可以直接使用策略梯度(如IPPDO)完成,第二次参数分布更新则以第一次更新后的参数分布为基准进行。进一步,结合重要性采样以及借鉴近端策略优化思路,通过使用KL散度惩罚项对前后两次参数分布之间的更新幅度进行限制,以保证参数分布在优化过程中能够始终朝着最优的方向移动。(3)针对现有基于演示的探索在训练过程中没有充分利用演示的问题,同时从网络预训练与网络正式训练两个方面利用演示来提高网络参数的优化效率,提出基于演示的策略优化(DPO)。在网络预训练阶段,通过将演示视为有标签的样本并利用其构造一个额外的监督学习环节来指导网络预训练,分别构建了连续和离散动作空间下基于演示的预训练目标函数。进一步,为提高预训练样本的采样效率,提出了基于状态和动作的注意力机制,从而使智能体在训练过程中能够更加侧重于高质量的学习样本。在网络正式训练阶段,在原始目标函数的基础上添加了基于演示的正则项,使演示能够通过目标函数直接作用于参数的优化。(4)针对现有基于分布熵的内部回报机制在训练过程中无法准确指导网络探索的问题,提出基于演示的内部回报机制。首先,通过分析演示与内部回报之间的内在联系,提出基于演示的内部回报具体表达形式;然后,结合深度学习在函数表征方面的优势,通过构建一组神经网络来实现内部回报的计算,并借鉴生成对抗网络的思想对网络进行优化;最后,分别提出了基于Actor网络和经验池的内部回报计算方式,使基于演示的内部回报机制能够统一到常规的深度强化学习框架中,从而提高参数的优化效率。OpenAI Gym和MuJoCo平台上离散动作以及连续动作任务上的实验结果表明:与目前主流的深度强化学习方法相比,所提探索增强深度强化学习方法能够在较短时间内获得更高的回报,具有较高的学习效率。
其他文献
保存条件对中国南方海相页岩气的勘探有着重要作用。为进一步解释各因素对海相页岩气保存条件的影响机理,明确赣西北修武盆地页岩气保存条件并优选有利区,研究从页岩及其顶底
属性作为联系底层特征和类别标签之间的桥梁实现了可见类到不可见类之间的知识迁移,为零样本图像分类(零样本学习)中类别标签缺失问题提供了有效的解决方案。但是,零样本学习仍然面临着基于可见类图像训练得到的分类器难以直接用于不可见类图像标签测试的问题。为此,本文围绕基于属性学习的零样本图像分类问题展开研究,主要工作包括:第一,在生成对抗网络以属性作为控制条件生成特征的过程中,由于缺少生成特征和属性以及生成
铁电材料的光伏(Ferroelectric Photovoltaic,FEPV)特性及电阻随机存储(Resistive Switching,RS)特性是当今铁电材料研究领域的两大热点。铁酸铋(Bi Fe O3,BFO)由于其较窄的光学带
α-酰氧基酰胺是一类具有双官能团的多功能化合物,其母核结构广泛存在于许多天然产物和药物分子中,并具有重要的生物和药物活性。另外,该类化合物也是一类重要的有机合成子,
近年来,高维数据越来越广泛的出现在各个科学领域.高维数据的一个典型特征是数据维度p大,样本容量n相对较小,即高维度小样本容量.许多统计学者关注高维总体均值向量的假设检
自2007年“命运共同体”的字眼首次出现在党的十七大报告中以来,该概念就开始频繁被大陆运用至对台政策宣示当中。特别是“十八大”之后,命运共同体概念的受重视程度有增无减
吸附法是去除水中重金属离子的理想方法之一。然而传统吸附剂的吸附效率比较低,限制了其应用。纳米吸附材料作为一种吸附面积大、吸附效率高的吸附材料深受关注。但纳米吸附剂也存在着潜在的环境风险,因为其颗粒粒径小,吸附完成后难于分离导致其泄漏至环境中。本研究将纳米吸附剂与纳滤膜联用,用于水中重金属离子的去除。首先,通过界面聚合法在聚醚砜中空纤维超滤基膜表面生成纳滤膜,探究制备纳滤膜时水相单体浓度,水相涂覆时
开花是高等植物生活史中一个重要的生理过程,是影响植物成功繁殖及种子繁衍的一个重要农艺学性状。植物开花受到不同内外源环境信号的影响,通过复杂而多样的分子网络途径进行
能源问题一直是世界关注的重点问题,在新能源设备中,锂离子电池因具备高能量密度、长循环寿命等优点而受到广泛的研究以及应用。随着社会、技术的飞速发展,人类对锂离子电池
税务系统把坚持和加强党的全面领导贯穿税收改革发展全过程、各方面,聚焦机关党建围绕中心、建设队伍、服务群众的职责和任务,扎实创建模范机关,有效促进了党建工作与税收业