强化学习及其在倒立摆控制中的应用研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sinner888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章从介绍强化学习的基本模型、结构和原理开始,详细分析了强化学习的主要算法在倒立摆控制中的应用:AHC一层和两层网络,Q学习方法等。  针对目前强化学习方法控制倒立摆研究中存在的不能获得系统连续状态输入以及输出连续动作空间给倒立摆的问题,结合神经网络中BP网络和感知器网络的泛化特性,通过重新改造智能体的结构,提出了一种新的方法,对强化学习领域所出现的新的算法的尝试。结合遗传算法和神经网络的SANE算法目前被广泛应用于人工智能领域,本文将其在倒立摆平台上作同样的控制效果实验,结果证明了其相比于AHC和Q学习算法具有更好的学习速度和控制效果。   本文主要在前人对强化学习研究的基础上,结合本实验室的倒立摆设备,对各种强化学习算法进行控制实验研究,并尝试解决了原先存在的一些问题,经过实验,取得了良好的控制效果。
其他文献
特征选择是模式识别系统中的关键问题。近年来,将人工神经网络用于特征选择是一个热点。学者们假设,通过分析良好学习的人工神经网络,可以推论出各个特征或各个特征子集的重
本文主要通过建立计算机软件仿真环境,针对温度场数据采集来研究无线传感器网络的路由算法。主要工作如下: 1.结合典型的传感器网络操作系统TinyOS,讨论了无线传感器网络的架
  字符提取是指从采集的含字符的图像中定位出字符的位置并进行分割。它在现实生活和科学研究中有着广泛的应用,是实豌智能化所必须要解决的问题之一。  本文提出了一种面
小波分析是一种有效的分析工具,已经在各领域、各学科中取得高度重视并取得显著成绩。以小波分析为工具进行数字图像处理则是小波研究与应用的热点之一。在本论文中,简述了小
激光打标是利用高能量密度的激光束在物件表面制作永久性标记。激光打标机是集激光、光学、机械、电子和计算机等技术于一体的机电一体化设备。激光打标较传统打标方式有诸多优点,在许多领域得到了广泛应用。其中,以高速在线打标市场前景最大。但目前高速在线打标全由外国产品所垄断。本文设计实现的阵列式高速在线CO_2激光打标机全由国产器件实现,适用于食品、饮料、烟酒、药品等生产线的高速在线打标。 本文首先对动
高质量的规划路径是确保移动机器人完成既定任务的关键所在。本文在分析现有的路径规划方法的基础上,提出了基于双层递阶模糊系统的人工势场法进行多机器人的路径规划。同时,对
人类对心理健康状况的描述和分析是采用自然语言进行的,为了能够有效地利用这些语言信息,本文采用时变论域下的二型模糊集合及语言动力学系统理论对心理健康状态进行建模和分析
长江三峡坝区的三峡-葛洲坝梯级枢纽是一个有机的整体,为了提高三峡和葛洲坝枢纽的船闸通过能力,实现船舶过闸便捷、通畅和有序,三峡通航管理局建立了两坝通航“统一调度,联合运
   本文对控制网络的协议和时延的组成及性质进行分析,讨论了影响时延的因素。在此基础之上,研究了多输入多输出的线性网络控制系统的连续时间模型,此模型中包含有多个网络
锁相环控制系统是使用反馈原理,实现相位自动控制的系统。锁相的目的在于通过反馈调节使输出信号相位锁定或跟踪输入信号的相位变化,其结果是使相位误差尽量地小。根据频率与相