论文部分内容阅读
深度强化学习是人工智能研究的热点领域之一,结合深度学习的感知能力和强化学习的决策能力,学界提出了基于深度模型的深度强化学习值函数模型,从而构造出合适的深度强化学习算法,并在状态空间或动作空间巨大的视频游戏任务中获得了很好的效果。随着深度Q网络(Deep-Q-Net,DQN),AlphoGo,rainbow等深度强化学习算法取得了巨大的成功,深度强化学习也获得了学界更多的关注。将强化学习和深度学习相结合的深度强化学习算法存在两个明显的问题:(1)由于深度模型的输出值是估计值,与使用Max算子进行动作选择的强化学习算法相结合会存在严重的过估计问题,导致智能体寻找最优策略的能力下降;(2)由于深度模型固有的不稳定性以及强化学习算法本身存在的稳定性问题,深度强化学习算法也很有可能是不稳定的。本文针对这两个问题,改进了经典的深度强化学习算法的值函数模型,主要工作如下:(1)利用优势学习的思想改进深度Q网络的值函数模型。保证最优值不变的情况下,缩小非最优值,增大最优值和非最优值之间的差值,最终使得即便存在评估误差,深度Q网络也能将当前状态所对应的最优动作选择出来。实验表明,基于优势学习的深度Q网络选择了更优的策略,提高了算法的性能。(2)提出基于更正函数的深度Q网络的值函数模型。针对优势学习中对于不同非最优值的缩小不合理这一问题,提出一个更正函数,使和最优值差值较小的非最优值得到较大的缩小,和最优值差值较大的非最优值得到较小的缩小,最终值函数模型对于当前状态的非最优值的缩小更加合理。实验表明,基于更正函数的深度Q网络相比深度Q网络和基于优势学习的深度Q网络,取得了更好的实验效果。(3)改进平均深度Q网络算法。针对平均深度Q网络中没有采用目标值网络以及训练时间过长的问题,本文探讨了平均深度Q网络训练时间过长的原因同时分析了目标值网络的作用,之后提出新的平均深度Q网络的值函数模型。实验表明,改进的平均深度Q网络提高了算法的性能并减少了模型的训练时间。(4)将SARSA算法引入深度强化学习中。首先分析了深度强化学习算法存在不稳定性的原因,然后利用SARSA算法对深度Q网络的值函数模型进行改进,用动作选择较为“安全”的SARSA算法去替代深度Q网络中动作选择较为激进的Q-Learning算法,从而构造出深度SARSA网络。实验证明,深度SARSA网络提高了算法在部分控制问题上的稳定性同时提升了算法在部分控制问题上的性能。