基于增强学习的优化控制方法及其在移动机器人中的应用

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户：storm_shen

【摘要】

：

与传统的监督学习和非监督学习不同,增强学习(Reinforcement Learning,RL)通过与环境进行交互来获得评价性的反馈信号,利用值函数或者策略的估计来实现序贯决策过程的优化。

【作者】

：

杨慧媛

【机构】

：

国防科学技术大学

【出处】

：

国防科学技术大学

【发表日期】

：

2014年期

【关键词】

：

增强学习值函数逼近时域差值学习流形 PID控制移动机器人路径跟踪控制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

与传统的监督学习和非监督学习不同,增强学习(Reinforcement Learning,RL)通过与环境进行交互来获得评价性的反馈信号,利用值函数或者策略的估计来实现序贯决策过程的优化。为了克服大规模状态与行为空间带来的计算量巨大的“维数灾难”,人们通常将值函数逼近技术与增强学习算法相结合来实现对大规模空间优化控制问题的求解。同时,由于增强学习具有对模型信息依赖少、能够实现控制器的自适应优化等特点,它在移动机器人路径跟踪控制方面的应用也受到广泛关注。本文在国家自然科学基金项目的支持下,对基于增强学习的优化控制方法进行了深入的研究,同时通过将改进的增强学习方法与经典控制算法相结合来实现移动机器人的高精度路径跟踪控制。本文取得的研究成果包括:1.对带有梯度修正项的线性时域差值学习算法(linear TD with gradient correction,TDC)进行了深入研究,通过与控制算法相结合,使其应用范围从解决学习预测问题拓展到了学习控制问题,并提出了两种基于TDC的改进优化控制算法——改进Q-Learning算法和改进HDP算法。由于TDC算法是一种严格意义的随机梯度下降法,因此它能够保证改进Q-Learning在进行离策略(off-policy)学习时的收敛性,并提高算法控制效果。通过对Mountain-Car和倒立摆的仿真研究,分别验证了两种改进算法在解决离散动作和连续动作优化决策问题时的有效性,并且讨论了不同学习步长参数对算法控制效果的影响。2.为了克服函数逼近器中基函数选择的困难,本文提出了一种基于流形表示的基函数自动构造方法并将其用于DHP算法评价器网络的构建中,从而给出了基于测地线拉普拉斯特征映射的对偶启发式规划算法(Dual Heuristic Programming based on Geodesic Laplacian Eigenmaps,GLEM-DHP)。文中分别利用了板-球和倒立摆两种典型的非线性系统对算法进行了测试,并通过将控制结果与其它算法相比较,体现了基于GLEM算法的基函数自动构造技术对于值函数逼近效果的改善,同时也展现了GLEM-DHP算法优良的控制性能。3.针对传统PID算法中参数选择困难的问题,本文结合了DHP算法的学习优化能力,提出了一种自学习PID控制算法——DHP-PID,并用于解决移动机器人的路径跟踪控制问题。DHP算法能够根据参考轨迹的变化以及系统当前状态进行在线学习,并通过DHP结构中的执行器网络输出优化后的PID参数,从而达到减小跟踪误差的目的。文中分别利用多种的参考轨迹对算法进行了测试,仿真结果均显示出DHP-PID算法具有比PID算法更好的跟踪效果。本文还进一步利用Mobile Sim仿真平台对DHP-PID算法得到的控制器进行了Pioneer3-AT型移动机器人的路径跟踪控制仿真,并得到了较好的控制效果。4.论文在仿真结果的基础之上对算法进行了实物实验。利用GLEM-DHP算法学得的控制器在Googol倒立摆实验平台上进行在线的实时控制实验,不仅验证了算法的现实可行性与有效性,更为增强学习在实际工程中的应用打下良好的基础。

其他文献

关于生物实验设计的几个小问题

【中图分类号】G633.91 【文献标识码】A 【文章编号】2095-3089（2015）05-0147-02　　在人为所干预、控制研究对象的条件下进行的观察，称为实验。实验不仅意味着精确的操作，而且是一种思维方式。本文主要从设计和完成实验的基本方法;设计和完成实验的原则;设计和完成实验的技巧三个方面介绍了生物实验设计中的问题。　　一、设计和完成实验的基本方法　　l.明确题目要求　　要弄清设计实验

期刊

生物实验设计研究对象思维方式基本方法控制技巧干预操作

高超声速飞行器的鲁棒跟踪控制器设计

高超声速飞行器具有很高的突防成功率以及侦查效能,能大大扩展战场空间,有巨大的军事价值和潜在的经济价值,已成为各国航天领域的研究热点。高超声速飞行器采用一体化设计方

学位

高超声速飞行器变增益控制器鲁棒控制动态面控制神经网络RBF

蛋白质化学实验课教学探索

【摘要】为培养学生创新精神和实践能力，我们的蛋白质化学实验课程经过几年的实践和改革，探索出了一套有特色的教学方法和教学模式。本文对我们的蛋白质化学实验课程进行了初步总结，便于和国内兄弟院校进行交流，相互促进。　　【关键词】蛋白质化学实验实验教学教学改革　　【项目基金】同济大学第六期校级精品实验项目。　　【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089（2015）05-01

期刊

蛋白质化学实验实验教学教学改革

基于光放大器的光纤液位变送器的研究

油罐液位参数的测量，要求较高精度和良好的本质安全性能。目前常用的液位测量方法大多以电信号进行测量和传输，带来了防燃防爆等问题。针对特殊工况下测量现场的要求，利用光纤传

学位

光纤传感器光放大器掺铒光纤油罐液位

浅谈高职物理的有效教学

【摘要】近年来，在国家对职业教育重视的背景下，为高职院校的发展提供了难得的机遇。高职院校作为培养技术型人才的重要场所，为了适应社会对人才需求，深入开展各学科的教学改革势在必行。本文结合当前高职院校物理教学现状，探索如何进一步提升高职院校的教学有效性。　　【关键词】高职物理有效教学　　【中图分类号】G633.7 【文献标识码】A 【文章编号】2095-3089（2015）05-0148-02　　近

期刊

高职物理有效教学

基于模糊变频技术的机车空调电源研究

本文对基于模糊变频技术的机车空调电源进行了研究。文章采用模糊算法实现对系统的控制，将室内温度的偏差和室内温度的偏差变化率作为模糊控制器的输入，空调压缩机的供电频率作

学位

机车空调电源变频模糊控制

反思中提高素养促进生物有效教学

【摘要】教学中反思学生、反思自身教学，关注学情，关注有效，注重策略方法，既能促进自身专业素养的提高，也能促进生物的有效教学。　　【关键词】反思提素养有效教学　　【课题项目】本文是中国教育学会“十二五”科研规划项目“区域教育现代化建设背景下教师专业发展研究”（编号：19070251）、广州市花都区“教师专业发展研究”专项课题之子课题“中学生物教师科研素养新修炼探索”（编号：HDJS201205）

期刊

反思提素养有效教学

基于增强学习的优化控制方法及其在移动机器人中的应用

其他学术论文