论文部分内容阅读
增强学习(Reinforcement Learning)又称为强化学习或再励学习,是近年来机器学习和人工智能领域研究的热点之一,并且引起了运筹学、控制理论、机器人学等其它学科研究人员的普遍注意,成为一个多学科交叉的研究方向。增强学习与监督学习的不同之处在于,增强学习不要求给定各种状态下的期望输出即教师信号,而强调在与环境交互中的学习,以极大(或极小)化从环境获得的评价性反馈信号为学习目标。因此增强学习在求解无法获得教师信号的复杂优化与决策问题中具有广泛的应用前景。 在21世纪,移动机器人(Mobile Robots)将在工业、交通、建筑与航天等领域发挥越来越大的作用,同时也对移动机器人的智能导航控制技术提出了更高的要求。如何提高移动机器人的自主导航能力和对环境的适应性,是实现移动机器人在复杂、不确定环境中成功应用的关键问题。应用机器学习特别是增强学习方法实现移动机器人自主导航控制器的优化设计和对未知环境的自适应,是近年来机器人学和人工智能界的一个重要研究课题。 本文在国家自然科学基金项目“增强学习泛化方法研究及其在移动机器人导航中的应用”的资助下,以增强学习及其在移动机器人导航控制中的应用为研究内容,重点研究了增强学习在求解连续状态和行为空间Markov决策问题时的泛化(Generalization)方法,并针对移动机器人在未知环境中的自主导航和路径跟踪控制器的优化设计问题,研究了增强学习在上述领域中的应用。 本文的第一章对增强学习理论、算法和应用研究的发展情况进行了全面深入的综述评论,同时分析了移动机器人导航控制的研究现状和发展趋势。在此基础上,本文的研究工作主要从5个方面展开,即:时域差值学习算法和理论;求解马氏决策问题的梯度增强学习算法;求解马氏决策问题的进化-梯度混合学习算法;增强学习在移动机器人路径跟踪控制器优化中的应用;基于增强学习的移动机器人反应式导航控制。取得的主要研究成果包括: 1.在时域差值学习(Temporal Difference Learning)学习算法和理论方面,首次提出了一种基于线性值函数逼近的多步递推最小二乘TD(λ)(RLS-TD(λ))学习算法,并分析和证明了该算法在求解遍历Markov链学习预测问题中的收敛条件和一致收敛性。RLS-TD(λ)学习算法同时结合了递推最小二乘参数估计方法和适合度轨迹(Eligibility traces)机制,从而能够获得比已有算法更好的收敛性能。 2.在求解离散行为空间Markov决策过程(MDP)最优策略的增强学习算法研究方面,研究了小脑模型关节控制器(CMAC)在MDP行为值函数逼近中的应用,分析了基于CMAC的直接梯度算法对MDP状态空间离散化的特点,研究了两种改进的CMAC编码结构,即:非邻接重叠编码和变尺度编码,以提高直接梯度学习算法的收敛速度和泛化性能。通过倒立摆和自行车平衡控制的学习控制仿真对提出方法的性能进行了研究,结果表明本文提出的改进CMAC编码方法能够有效地改进增强学习算法的收敛速度和泛化性能。 3.首次提出了基于值函数逼近的非平稳策略残差梯度增强学习算法—RGNP算法,并分析了其收敛性和近似最优策略的性能。RGNP算法克服了已有的基于前馈神经网络等非一线性值函数逼近器的增强学习算法在求解学习控制问题时没有收敛性保证的缺点,在理论和应用上具有重要意义。针对Mountain(ar和一类欠驱动机器人系统(称为体操机器人或Acrobot)的摇起最优控制问题进行了仿真研究,结果表明RGNP算法具有良好的学习效率和泛化性能,为求解高维连续状态空间的马氏决策问题提供了一类有效方法。 4.在求解同时具有连续状态和行为空间马氏决策问题的增强学习方法研究方面,首次将时域差值学习的RLS-TD趴)算法与自适应启发评价(AdaPtive Heuristic Critic:AHC)学习算法结合,提出了一种快速AHC学习(Fast-AHC)算法。该算法通过在评价器(Criti)网络中采用RLS*D从学习算法,在提高学习预测效率的同时,改进了闭环学习系统的学习控制性能。以倒立摆学习控制和 Acrobot摇起控制问题为研究对象的仿真对比分析表明,快速AHC学习算法能够获得优于AHC算法的性能。 5.首次提出了将进化算法与基于神经网络值函数逼近的梯度下降增强学习算法结合的进化-梯度混合增强学习算法,通过进化算法进行神经网络权值的大范围全局搜索,利用梯度增强学习算法实现权值的局部搜索,从而有效地实现了对马氏决策过程最优值函数和最优策略的全局逼近。分别针对离散行为空间和连续行为空间马氏决策问题的情形,提出了 EARG算法和 E-AHC两种进化-梯度混合学习算法。上述算法克服了基于神经网络值函数逼近的增强学习梯度算法存在的局部收敛性问题和学习因子优化选择的困难,同时出于采用了值函数逼近的机制,具有良好的学习效率。 6.首次提出了一种基于增强学习的自适应PID控制器设计方法,并应用于移动机器人路径跟踪控制器的优化设计中。该控制器利用神经网络增强学习来实现对PID控制增益的自适应整定,在利用了常规PID控制器的鲁棒性的同时,实现了控制器参数的在线自学习和优化