论文部分内容阅读
深度强化学习是近年来人工智能领域最受关注的研究热点之一。强化学习智能体需要在与环境的交互中不断决策来完成特定任务,也就是说,强化学习智能体的训练往往需要大量的样本数据作为支撑。因此,在一些样本数量比较稀少或者样本获得比较困难的任务环境中,通常难以获得令人满意的智能体训练结果,从而限制了深度强化学习在实际问题中的进一步应用。为使强化学习智能体能够快速获得高质量的训练样本,高效的探索方式是一种有效的解决方法。为此,本文分别从两个角度(参数分布化表示与演示辅助训练)来研究如何增强智能体的探索能力,提出了4种探索增强深度强化学习方法,主要工作包括:(1)针对参数分布化表示易于导致算法不稳定的问题,提出基于推断的后验参数分布优化(IPPDO)。一方面,结合概率推断中证据下界的概念,从模型可观测变量与潜变量的角度出发,建立了参数分布与强化学习目标任务之间的对应关系,构建了参数分布优化目标函数。另一方面,通过给参数分布标准差增加一个额外的激活函数来调整参数分布到网络权重的映射方式,实现了参数固定值与参数分布之间的自适应调整,进一步提高了算法的稳定性。此外,IPPDO是一种基于离策略的深度强化学习方法,能够利用经验池等技术有效提高样本利用率,加快智能体学习。(2)针对参数分布在优化过程中易于受到策略梯度的偏差和方差干扰,从而导致学习稳定性和学习效率较低的问题,提出近端参数分布优化(PPDO)。结合元学习算法Reptile中利用网络当前参数逼近真实参数的思想,通过对待学习参数分布进行两次更新来加快学习速度:第一次参数分布更新可以直接使用策略梯度(如IPPDO)完成,第二次参数分布更新则以第一次更新后的参数分布为基准进行。进一步,结合重要性采样以及借鉴近端策略优化思路,通过使用KL散度惩罚项对前后两次参数分布之间的更新幅度进行限制,以保证参数分布在优化过程中能够始终朝着最优的方向移动。(3)针对现有基于演示的探索在训练过程中没有充分利用演示的问题,同时从网络预训练与网络正式训练两个方面利用演示来提高网络参数的优化效率,提出基于演示的策略优化(DPO)。在网络预训练阶段,通过将演示视为有标签的样本并利用其构造一个额外的监督学习环节来指导网络预训练,分别构建了连续和离散动作空间下基于演示的预训练目标函数。进一步,为提高预训练样本的采样效率,提出了基于状态和动作的注意力机制,从而使智能体在训练过程中能够更加侧重于高质量的学习样本。在网络正式训练阶段,在原始目标函数的基础上添加了基于演示的正则项,使演示能够通过目标函数直接作用于参数的优化。(4)针对现有基于分布熵的内部回报机制在训练过程中无法准确指导网络探索的问题,提出基于演示的内部回报机制。首先,通过分析演示与内部回报之间的内在联系,提出基于演示的内部回报具体表达形式;然后,结合深度学习在函数表征方面的优势,通过构建一组神经网络来实现内部回报的计算,并借鉴生成对抗网络的思想对网络进行优化;最后,分别提出了基于Actor网络和经验池的内部回报计算方式,使基于演示的内部回报机制能够统一到常规的深度强化学习框架中,从而提高参数的优化效率。OpenAI Gym和MuJoCo平台上离散动作以及连续动作任务上的实验结果表明:与目前主流的深度强化学习方法相比,所提探索增强深度强化学习方法能够在较短时间内获得更高的回报,具有较高的学习效率。