基于示教数据的机器人操作技能学习算法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：dairui1985

【摘要】

：

【作者】

：

郑昊思

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2021年01期

【关键词】

：

深度强化学习机器人操作技能事后经验回放生成对抗模仿学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科技的高速发展,机器人产业迎来爆发性增长,与此同时对机器人智能化水平的要求不断提升。传统的精确建模与控制方法只能让机器人胜任结构化的单一环境,掌握固定的操作技能,在面临复杂多变的动态环境时,深度强化学习算法（Deep Reinforcement Learning,DRL）的注入为机器人掌握更灵活多变的操作技能提供了可能。然而,深度强化学习算法在应用于机器人操作技能学习时因样本效率低、回报设计难、收敛不确定等问题而效果不佳,为克服上述困难,本文通过引入示教数据,开展了以下几个方面的研究工作:1.为有效收集示教数据,本文设计搭建了一套基于线性空间映射的遥操作示教系统。通过建立主从端运动学方程,操作员就能远程遥控从端机器人完成操作任务。这套系统分别在仿真和实体机器人平台完成了可行性验证实验,并为后续两种改进的深度强化学习算法提供了示教数据集。2.为克服样本探索效率低的问题,本文提出了一种示教初始化事后经验回放（Hindsig Experience Replay,HER）算法,该算法构建在分布式深度确定性策略梯度（Deep Deterministic Policy Gradient,DDPG）)框架之内,其有效的关键技巧是在训练初始阶段以一定数量的示教数据初始化经验回放池。实验结果表明,示教数据的加入能够有效加速机器人操作技能的学习,示教数据越多,学习速度越快;同时,该算法还能保证操作行为的平稳性。3.为克服回报函数设计难、收敛性不确定的问题,本文提出了一种目标导向的生成对抗模仿学习（Generative Adversarial Imitation Learning,GAIL）算法,该算法使用了目标导向的判别器、判别器训练早期停止、权重参数退火、专家数据重标签等多个技巧。实验结果表明,该算法能够有效加速机器人操作技能的学习,判别器训练早期停止和权重参数退火是其成功的关键技巧。相较示教初始化HER算法,该算法对于噪声扰动的鲁棒性更强。综上所述,本文所提出的两种改进深度强化学习算法能够实现并有效加速机器人操作技能的学习,有助于提升机器人的智能化水平。

其他文献

学位

学位

学位

学位

基于翻转课堂的小学古诗词教学设计与实践研究 ——以Z市X小学为例

学位

《郑州大学学报（哲学社会科学版）》出版特色研究