基于强化学习的二级倒立摆控制

来源 :计算机仿真 | 被引量 : 0次 | 上传用户:AJGSUN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在模型未知和没有先验经验的条件下,采用一种改进的强化学习算法实现二级倒立摆系统的平衡控制。该学习算法不需要预测和辨识模型,能通过网络自身的联想和记忆,在线寻求最优策略。该学习算法采用基于神经网络的值函数逼近,并用直接梯度和适合度轨迹修正权值,有效实现对连续状态和行为空间任务的控制。计算机仿真证明了该强化学习算法在较短的时间内即可成功地学会控制直线二级倒立摆系统。
其他文献
结合河北省河长制卫星遥感监测,浅析遥感技术在省内河湖管理保护中的应用。高分系列卫星影像具备高空间分辨率与高时间分辨率特点,采用高分一号卫星、高分二号卫星影像作为主
我国合同法通过对无效合同制度的建立,使国家权力以法律的形式适时适当地对处于私法领域的合同自由权利予以调整和规范,对保护合同当事人的合法权益、维护社会经济秩序具有重要
目的:通过建立简易骨缺损模型,将珊瑚羟基磷灰石(CHA)与富血小板纤维蛋白(PRF)的复合物、珊瑚羟基磷灰石与自体骨的复合物、珊瑚羟基磷灰石与重组人骨形成蛋白-2(rhBMP-2)的复合物以
政治认同是现代民主政治的核心概念之一,也是我国社会主义民主政治建设所面临的关键问题。研究新生代农民工的政治认同问题,不仅仅因为1亿多新生代农民工已经成为中国特色社
[目的]研究声带创伤性瘢痕的临床和病理改变.[方法]对27例创伤性声带瘢痕患者进行嗓音声学分析、动态喉镜观察,观察瘢痕的组织病理学改变,并设立对照组检查.[结果]声带瘢痕组
【正】 台湾当代文学理论批评,从1945年台湾回归祖国到现在,迄今已将近半个世纪的历史。但是,它作为《台湾当代文学史》的一门分支学科加以讨论,过去还未有人尝试过。
李白是中国文学史中难能可得诗人之一,毋庸置疑,他的造诣是无人可代替的。诚然,对于李白诗歌的研究,一直学界特别热门的题材。他的诗歌中那种自由自在,豪迈与豁达的的思想,以
eWTP(Electronic World Trade Platform)即“世界电子贸易平台”,意在当前世界经济格局和“一带一路”战略实施的前提下,建立贸易新规则,以帮助小企业、发展中国家和年轻人发展。
詹姆逊的后现代马克思主义意识形态理论的归宿是'历史阐释的意识形态'.他首先探讨了历史主义的困境,奠定了'历史阐释'的方法论基础;其次,批判了解决这一困境
藏文文献目录学卓尼·噶·贡布才让一、藏文文献目录学的产生藏文文献目录学的产生与吐蕃文化的兴起有直接关系。公元前1世纪,吐蕃吸收了印度和波斯文化,大大推进了社会经济的发