论文部分内容阅读
强化学习是一种通过不断与环境进行“试错”交互寻求最大化奖赏信号的学习方法。强化学习能够基于无标签数据对模型未知的问题进行在线学习,但是存在收敛精度低、收敛速度慢、处理连续动作难等问题。核方法是一种高效的无参函数逼近方法,采用其逼近强化学习中的值函数与策略函数能够有效缓解收敛精度低、收敛速度慢的问题。作为一种行动者-评论家(AC)方法,策略梯度具有处理连续状态与动作问题的能力。本文着眼于模型未知的连续空间问题,将核方法与策略梯度方法应用于强化学习中近似函数的逼近,提出以下三部分内容:(1)对基于核的强化学习方法而言,核函数与稀疏化方法直接决定值函数与策略函数的近似效果,进而影响算法性能。传统的稀疏化方法计算时间长、估计精度低。针对该问题,本文提出一种基于聚类的稀疏化方法(CNC)。该算法在学习准备阶段借助聚类方法抽象出数据分布,以此提高算法估计精度;在线学习阶段采用复杂度低的新奇规则方法,满足实时性要求高的在线学习方法。在Sarsa(λ)算法框架下,结合CNC方法与选择性核函数(CNC-SK)近似表示值函数,并提出基于聚类的选择性核的Sarsa(λ)算法(CSKS(λ))。最后通过实验验证CSKS(λ)算法在处理连续状态、离散动作问题方面的性能。(2)策略评估是行动者-评论家方法的重要组成部分。真实在线时间差分算法(TOTD(λ))是一种高效的策略评估算法。本文将其与CNC-SK结合,提出一种基于核的真实在线时间差分算法(TOKTD(λ))。并实验验证TOKTD(λ)算法在策略评估方面的性能。最后将该算法应用于AC方法中的评估部分,并通过连续状态、连续动作问题验证TOKTD(λ)算法在加快策略改进方面的性能。(3)基于TOTD(λ)的真实在线思想,改进自然梯度的计算方法,并结合内容(1)、(2),提出基于核的真实在线自然梯度行动者-评论家算法(TOKNAC),用于解决未知环境、连续状态与连续动作问题。算法采用研究内容(1)提出的CNC-SK方法近似表示值函数与策略函数。评论家部分采用TOKTD(λ)算法评估策略;行动者部分采用TOTD(λ)的思想计算自然梯度。最后通过实验验证算法在处理环境未知、连续状态与连续动作控制问题时的有效性。