基于内在动机的强化学习算法在两轮机器人中的研究

来源 :计算机测量与控制 | 被引量 : 0次 | 上传用户:water15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对两轮自平衡机器人在学习过程中遇到的主动性差和以往强化学习对单步学习效率低的问题,受心理学中内在动机理论的启发,提出一种基于内在动机的强化学习算法;该算法利用内在动机信号作为内部奖励,模拟人类心理认知机理并与外部信号一起作用于整个学习过程,提高了智能体的自学习能力,同时采用自组织神经网络进行训练,保证了算法的快速性;通过无扰动和有扰动两种仿真实验的对比,验证了基于内在动机的强化学习算法能够使两轮机器人在未知环境下通过自主学习最终达到平衡,且体现了该算法的鲁棒性和可行性.
其他文献
目的:探讨CT检查在百草枯中毒致肺损害中的临床意义。方法:收治百草枯中毒致肺损害患者38例,按照口服量大小分成3组,分别在24h、48h、72h、96h、120h进行CT检查。结果:死亡5例,肺水
从粉体输送系统的特点出发,结合作者从事的实际工程,对机械输送系统及气力输送系统的发展、应用及效果作综合比较,为粉体散装物料的设备正确选型提供技术参考.
目的探讨常规体外受精(IVF-ET)中,3PN的出现对临床结局的影响。方法回顾性分析2015年全年在我院生殖中心行IVF治疗的3184个周期的临床数据,根据是否存在异常受精情况分为有异
近几年,我国城市投资建设力度不断加大,城市建设投融资机制改革不断深入,融资方式也呈现种类多样、开放竞争的格局,在此新的形势下,很有必要厘清城市基础设施建设需要金融支持的原
产业扶贫是稳定脱贫的根本之策,为贫困群众脱贫致富提供重要支持。本文从精准扶贫与农业产业化扶贫的概念界定入手,围绕实行农业产业化精准定位、推动扶贫专项资金建设、健全
目的分析广州老年高血压患者的饮食和运动特点,探讨社区高血压患者更有针对性的健康教育和护理方法。方法从在我院体验的老年人员中选取62例高血压患者,将其分为血压控制组(17例
【正】 我们曾经说过,致良知由致知而来,没有《大学》的致知,没有程朱之鼓吹格物致知,不会有王阳明的致良知。但王阳明如果生于宋代,而欲继先圣之绝学,舍《四书》,无踪迹可寻
目的调查大学生的身体素质的基本现状,探索其发展变化规律。方法通过检测西安交通大学城市学院在校学生的速度、力量、耐力和柔韧素质,掌握其身体素质现状与变化特征,并发放
高校教师是一个对职业效能感有较高需求的群体,目前高校教师职业幸福感整体水平有偏低倾向。学历、职称、学生评价和个人性格等因素对高校教师的职业幸福感产生影响。可以从
为探讨不同配比基质对设施甜瓜生长和产量的影响,以牛粪和玉米秸秆熟化物、沼渣、草炭、珍珠岩和腐植酸按不同体积比配制成3种配方基质,以商品基质为对照(CK),通过测定甜瓜的