基于深度确定性策略梯度算法的双轮机器人平衡控制研究

来源 :机械工程师 | 被引量 : 0次 | 上传用户:XIAOZHOU914
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对深度强化学习在双轮机器人中的应用问题,提出了一种基于深度确定性策略梯度算法的平衡控制方法。首先,该方法将双轮机器人作为智能体,读取状态信息并建立动作策略和奖惩机制;其次,智能体依据算法给出的随机动作指令执行,执行完动作之后反馈状态信息,算法根据反馈的状态信息给出新动作;最后,通过多回合训练使双轮机器人保持平衡。实验结果表明,通过多回合训练之后,双轮机器人的姿态角度波动范围在-4°~4°以内,双轮机器人的平稳性得到了显著改善,实现了机器人的平衡控制行为学习,证明了该方法的有效性。
其他文献
目前,贵阳市食品检验检测体系建设受到检测机构重复建设、检测信息不能共享、检测机构分布不均等条件限制,导致贵阳市检验检测体系发展比较滞后,不能适应当前社会经济发展条
为了进一步提升隧道仰拱栈桥的使用性能,并提高施工效率,提出了24 m履带自行式仰拱栈桥与半幅仰拱模板联合设计施工的方法。优化了主桥结构、前坡桥及整体模板系统,实现了栈
从芦柑种植地块选择、品种选择、适时栽植、肥水管理、培养丰产树冠、适时疏花疏果、病虫害防治、采收等方面介绍了建瓯市无公害芦柑生产技术操作规程,以期为种植户提供参考。
机床主轴的装配中,需要通过一定的工艺方法,消除主轴轴承径向和轴向的游隙,以提高主轴的刚性,使主轴在承受一定载荷时,能够保持设计要求的各项精度,文中研究了主轴的两种装配
利用1959—2010年济宁市的雷暴观测资料,分析济宁市雷暴气候的变化特征。结果表明:济宁市年雷暴日数总体呈减少趋势.年平均雷暴日数为23.9d;雷暴日数的年际变化较大,20世纪60年代至
目的评价社区健康服务管理中心实行以公益性导向绩效考核方案后卫生服务及公益性作用的成效。方法以基本医疗、公共卫生服务和满意度为综合考核指标,对比深圳市沙井人民医院