论文部分内容阅读
与传统的监督学习和非监督学习不同,增强学习(Reinforcement Learning,RL)通过与环境进行交互来获得评价性的反馈信号,利用值函数或者策略的估计来实现序贯决策过程的优化。为了克服大规模状态与行为空间带来的计算量巨大的“维数灾难”,人们通常将值函数逼近技术与增强学习算法相结合来实现对大规模空间优化控制问题的求解。同时,由于增强学习具有对模型信息依赖少、能够实现控制器的自适应优化等特点,它在移动机器人路径跟踪控制方面的应用也受到广泛关注。本文在国家自然科学基金项目的支持下,对基于增强学习的优化控制方法进行了深入的研究,同时通过将改进的增强学习方法与经典控制算法相结合来实现移动机器人的高精度路径跟踪控制。本文取得的研究成果包括:1.对带有梯度修正项的线性时域差值学习算法(linear TD with gradient correction,TDC)进行了深入研究,通过与控制算法相结合,使其应用范围从解决学习预测问题拓展到了学习控制问题,并提出了两种基于TDC的改进优化控制算法——改进Q-Learning算法和改进HDP算法。由于TDC算法是一种严格意义的随机梯度下降法,因此它能够保证改进Q-Learning在进行离策略(off-policy)学习时的收敛性,并提高算法控制效果。通过对Mountain-Car和倒立摆的仿真研究,分别验证了两种改进算法在解决离散动作和连续动作优化决策问题时的有效性,并且讨论了不同学习步长参数对算法控制效果的影响。2.为了克服函数逼近器中基函数选择的困难,本文提出了一种基于流形表示的基函数自动构造方法并将其用于DHP算法评价器网络的构建中,从而给出了基于测地线拉普拉斯特征映射的对偶启发式规划算法(Dual Heuristic Programming based on Geodesic Laplacian Eigenmaps,GLEM-DHP)。文中分别利用了板-球和倒立摆两种典型的非线性系统对算法进行了测试,并通过将控制结果与其它算法相比较,体现了基于GLEM算法的基函数自动构造技术对于值函数逼近效果的改善,同时也展现了GLEM-DHP算法优良的控制性能。3.针对传统PID算法中参数选择困难的问题,本文结合了DHP算法的学习优化能力,提出了一种自学习PID控制算法——DHP-PID,并用于解决移动机器人的路径跟踪控制问题。DHP算法能够根据参考轨迹的变化以及系统当前状态进行在线学习,并通过DHP结构中的执行器网络输出优化后的PID参数,从而达到减小跟踪误差的目的。文中分别利用多种的参考轨迹对算法进行了测试,仿真结果均显示出DHP-PID算法具有比PID算法更好的跟踪效果。本文还进一步利用Mobile Sim仿真平台对DHP-PID算法得到的控制器进行了Pioneer3-AT型移动机器人的路径跟踪控制仿真,并得到了较好的控制效果。4.论文在仿真结果的基础之上对算法进行了实物实验。利用GLEM-DHP算法学得的控制器在Googol倒立摆实验平台上进行在线的实时控制实验,不仅验证了算法的现实可行性与有效性,更为增强学习在实际工程中的应用打下良好的基础。