论文部分内容阅读
强化学习是通过最大化累积的期望回报来获取最优策略的一种重要机器学习方法。根据是否需要模型知识,强化学习方法可以分为模型相关方法和模型无关方法。与模型无关方法相比,模型相关方法能更快地寻求到最优策略,同时也具备更好的样本效率。然而,大部分现实问题中的模型是未知的,若想采用模型来提高算法性能,必须首先学习模型。目前,基于模型学习的方法已经成为了强化学习研究领域的一个研究热点。本文从模型学习的角度出发,对大规模连续状态空间的强化学习方法存在的样本效率不高和收敛速度慢等问题展开分析,提出了一系列解决方案,并将解决方案应用在平衡杆、倒立摆、Boyan链和清洁机器人等经典的强化学习测试平台中。本文主要研究内容包括以下四部分:(1)针对大规模连续状态和离散动作空间问题,提出了基于近似模型表示的启发式Dyna优化算法——HDyna-AMR(A heuristic Dyna optimization algorithm using approximate model representation)。HDyna-AMR算法采用线性函数来近似特征迁移矩阵和奖赏向量,并采用agent与环境交互获得的样本来学习特征迁移矩阵和奖赏向量,同时记录特征出现的频率;在规划过程中,将特征出现频率作为优先级,并通过优先级队列来重点采样,以提高规划的效率。此外,从理论的角度对算法的收敛性进行了证明。(2)针对大规模连续状态和连续动作空间问题,提出了一种基于层次化模型学习与规划的强化学习算法——AC-HMLP(Actor-critic algorithm based on hierarchical model learning and planning)。AC-HMLP算法包含两个模型:局部模型和全局模型。采用局部线性回归(local linear regression,LLR)近似局部模型,而全局模型则通过线性函数来近似,利用在线学习过程中获得的样本来学习模型,并通过模型规划来更新值函数和策略。当局部模型误差没有超过误差阈值时进行局部规划,而全局模型则是在每个情节后被用于进行全局规划。通过两个模型的合作来充分利用样本的局部信息和全局信息,以提高模型的精确性和促进算法更快收敛。(3)为了进一步提高样本效率,提出了一种基于LSTD(λ)和策略近似的强化学习方法——Dyna-LSTD-PA(Dyna based on least square temporal difference and policy approximation)。与前面的算法类似,Dyna-LSTD-PA同样包含两个并发的过程。学习过程主要是通过高斯分布来选择执行的动作,并采用LSTD(λ)对线性函数近似的值函数、策略和模型进行参数更新。规划过程采用离线的LSTD(λ)来更新值函数参数。Dyna-LSTD-PA算法采用Sherman-Morrison来提高LSTD(λ)的计算效率,同时在每个时间步,通过对学习过程和规划过程得到的值函数参数进行加权,来学习更为精确的值函数参数。从理论的角度对Dyna-LSTD-PA算法的全局误差进行了推导。(4)为了减小策略梯度的方差和提高策略的收敛速度,提出了采用经验回放和模型学习共同加速的正则化自然AC算法RNAC-ML-ER(Regularized natural actor-critic with model learning and experience replay)。RNAC-ML-ER算法不仅利用在线获取的样本来学习模型,同时用于填充经验回放存储器。在每个时间步,均可以利用经验回放存储器中的样本进行回放,来提高值函数和策略学习速度;同时为了促进策略的快速收敛,采用自然梯度来代替传统的策略梯度,以加快策略的收敛,并采用优势函数作为目标函数来求取策略梯度,以降低策略梯度方差。在假定的二个假设成立的条件下,对算法的收敛性进行了证明。