强化学习及其在倒立摆控制中的应用研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：sinner888

【摘要】

：

文章从介绍强化学习的基本模型、结构和原理开始，详细分析了强化学习的主要算法在倒立摆控制中的应用：AHC一层和两层网络，Q学习方法等。　针对目前强化学习方法控制倒

【作者】

：

张涛

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2005年期

【关键词】

：

强化学习 LQR控制神经网络遗传算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文章从介绍强化学习的基本模型、结构和原理开始，详细分析了强化学习的主要算法在倒立摆控制中的应用：AHC一层和两层网络，Q学习方法等。　针对目前强化学习方法控制倒立摆研究中存在的不能获得系统连续状态输入以及输出连续动作空间给倒立摆的问题，结合神经网络中BP网络和感知器网络的泛化特性，通过重新改造智能体的结构，提出了一种新的方法，对强化学习领域所出现的新的算法的尝试。结合遗传算法和神经网络的SANE算法目前被广泛应用于人工智能领域，本文将其在倒立摆平台上作同样的控制效果实验，结果证明了其相比于AHC和Q学习算法具有更好的学习速度和控制效果。　　本文主要在前人对强化学习研究的基础上，结合本实验室的倒立摆设备，对各种强化学习算法进行控制实验研究，并尝试解决了原先存在的一些问题，经过实验，取得了良好的控制效果。

其他文献

基于特征模糊化和神经网络的特征选择

特征选择是模式识别系统中的关键问题。近年来,将人工神经网络用于特征选择是一个热点。学者们假设,通过分析良好学习的人工神经网络,可以推论出各个特征或各个特征子集的重

学位

特征选择模糊神经网络自适应模糊隶属度函数网络剪枝

无线传感器网络路由算法仿真研究

本文主要通过建立计算机软件仿真环境，针对温度场数据采集来研究无线传感器网络的路由算法。主要工作如下： 1.结合典型的传感器网络操作系统TinyOS，讨论了无线传感器网络的架

学位

无线传感器网络仿真数据采集洪泛路由算法

复杂自然场景中的字符提取

　　字符提取是指从采集的含字符的图像中定位出字符的位置并进行分割。它在现实生活和科学研究中有着广泛的应用，是实豌智能化所必须要解决的问题之一。　　本文提出了一种面

学位

字符提取多特征融合复杂场景色彩空间

基于小波分析的眼底图像拼接

小波分析是一种有效的分析工具,已经在各领域、各学科中取得高度重视并取得显著成绩。以小波分析为工具进行数字图像处理则是小波研究与应用的热点之一。在本论文中,简述了小

学位

多分辨率分析小波变换Mallat算法图像匹配图像拼接平滑算子

阵列式高速在线CO<,2>激光打标机控制系统的设计与实现

激光打标是利用高能量密度的激光束在物件表面制作永久性标记。激光打标机是集激光、光学、机械、电子和计算机等技术于一体的机电一体化设备。激光打标较传统打标方式有诸多优点,在许多领域得到了广泛应用。其中,以高速在线打标市场前景最大。但目前高速在线打标全由外国产品所垄断。本文设计实现的阵列式高速在线CO_2激光打标机全由国产器件实现,适用于食品、饮料、烟酒、药品等生产线的高速在线打标。本文首先对动

学位

激光打标机动态链接库多线程高精度定时Visual C++控制系统

多机器人路径规划避碰和协作运动研究

高质量的规划路径是确保移动机器人完成既定任务的关键所在。本文在分析现有的路径规划方法的基础上，提出了基于双层递阶模糊系统的人工势场法进行多机器人的路径规划。同时，对

学位

多机器人系统路径规划协作运动递阶模糊系统人工势场法避碰算法

时变论域下心理健康状态的语言动力学建模与分析

人类对心理健康状况的描述和分析是采用自然语言进行的，为了能够有效地利用这些语言信息，本文采用时变论域下的二型模糊集合及语言动力学系统理论对心理健康状态进行建模和分析

学位

时变论域二型模糊集合词计算语言动力系统心理健康状态危机干预匹配度法则高校学生

三峡-葛洲坝通航联合调度模型和算法的研究

长江三峡坝区的三峡-葛洲坝梯级枢纽是一个有机的整体，为了提高三峡和葛洲坝枢纽的船闸通过能力，实现船舶过闸便捷、通畅和有序，三峡通航管理局建立了两坝通航“统一调度，联合运

学位

船闸调度调度策略优先级遗传算法三峡-葛洲坝梯级枢纽

基于丢包和多包传输的网络控制系统研究

　　本文对控制网络的协议和时延的组成及性质进行分析，讨论了影响时延的因素。在此基础之上，研究了多输入多输出的线性网络控制系统的连续时间模型，此模型中包含有多个网络

学位

网络控制系统异步动态系统多包传输

SOC用锁相环控制系统设计及研究

锁相环控制系统是使用反馈原理，实现相位自动控制的系统。锁相的目的在于通过反馈调节使输出信号相位锁定或跟踪输入信号的相位变化，其结果是使相位误差尽量地小。根据频率与相

学位

锁相环系统电荷泵CMOS工艺鉴频鉴相器天津

强化学习及其在倒立摆控制中的应用研究

其他学术论文