基于深度强化学习的移动机器人导航策略研究

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:njnuqxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人一直以来都是科学家们致力研究的问题,随着人们对日常生活便利和高效生产等方面的追求越来越大,机器人如今扮演着越来越重要的角色,传统意义上的机器人程式化的控制已经难以满足人们的需求,目前传统的机器人导航技术的应变能力不足、自主性差,不具备学习能力,难以完成变化环境下的导航任务,因此对于移动机器人导航的智能化研究尤为重要。本文针对非结构化环境中的移动机器人自主导航问题,研究基于深度强化学习的机器人自主导航策略,该策略可适应移动机器人从随机起点到任意终点自主导航,使用深度强化学习来训练机器人在未知环境下的导航行为,使其能适应未知的非结构化环境,并且即使环境发生了变化,机器人同样可以执行导航任务。本文主要的研究工作如下:1)针对目前移动机器人的导航问题进行调研,对目前解决机器人导航问题的相关技术进行介绍,并重点研究现阶段移动机器人的导航方法的局限性。2)针对移动机器人自身对环境感知信息的局限性,以及机器人已经获得的环境信息与实时捕捉的感知信息不匹配等情况下的导航决策问题,提出了一种基于Q值的深度强化学习算法(DQN)的移动机器人导航决策方法。DQN算法使用深度卷积神经网络对移动机器人的状态和对应的动作进行回归预测,实现移动机器人从环境感知到决策行为的端到端控制,采用搜索与利用的平衡策略实现机器人对最优动作的搜索,通过构造环境的奖励函数来对机器人的动作的优劣进行反馈,求出最优策略。最后给出DQN算法在仿真环境下训练过程中的loss函数曲线,证明经过一定的训练后DQN算法能够得到很好的收敛效果。3)针对基于DQN的深度强化学习算法无法解决移动机器人高维度的连续动作空间问题,以及该算法基于随机概率搜索的方式会导致算法在高维度问题下模型难以收敛的问题,提出基于确定性策略梯度的深度强化学习算法(DDPG)的移动机器人导航决策方法。DDPG算法基于行动者评论家(Actor-Critic)框架和确定性策略梯度(DPG)的方式,通过评价网络和策略网络进行算法参数的自适应更新,输出确定性的机器人导航行为。最后通过对比分析DQN算法和DDPG算法的loss函数以及平均q值曲线,证明了DDPG算法的稳定性、安全性更高。4)使用这两种基于深度强化学习的移动机器人导航算法进行仿真实验对比分析,验证该算法的可行性。以OpenCV平台下搭建的仿真环境作为实验平台,使用TensorFlow创建的卷积神经网络模型进行处理和实验,实现移动机器人在仿真环境下的导航。仿真实验结果表明:在经过深度强化学习的方法训练后,移动机器人在环境发生了部分场景变化时,依然能够实现随机起点到任意终点的准确的导航。
其他文献
目的探讨牙列缺损采用种植修复与固定义齿修复治疗的观察。方法将2017年1月至2018年1月牙列缺损患者100例数字表法分组为固定义齿组50例和种植修复组50例。固定义齿组进行固
本国优先权是指专利申请人就相同主题的发明或者实用新型在中国第一次提出专利申请之日起12个月内,又向中国国家知识产权局提出的专利申请,可以享有优先权。本国优先权若使用
大青沟位于安宁区北部,沟口为安宁区城区。大青沟泥石流形成以冲蚀汇流和主沟冲蚀为主,流域中、上游受平山造地、回填沟谷的影响,固体物质较丰富。泥石流堆积分为沟道堆积和
根据企业实际生产情况,对产品特性进行分析,设计出成组可调夹具,以满足产品生产需求,提高了加工效率,降低了生产成本。
文中对第十六届上海国际纺织工业展览会中的针织染色机进行了述评。举例介绍了展会上几种染色设备的外观结构、主要特征以及技术参数,包括溢喷染色机、气流染色机以及佛山市三
美国经济趋势基金会主席杰里米·里夫金在评论当前企业组织变化时说:“制造业和大部分服务部门正在进行一场变革,其变革的程度如同本世纪初机器代替数百万农民的劳动一样深广。
许多脑卒中患者不是死于疾病本身,而是死于并发症,其中肺部感染,主要是吸入性肺炎是导致患者死亡和影响功能恢复的最重要原因之一。我们对脑卒中吞咽障碍患者100例实施综合干预,
痤疮是一种累及毛囊皮脂腺的慢性炎症性皮肤病,因影响容貌美观,患者求治心切。临床以往多采用药物治疗痤疮,但存在耐药性及易复发等不足。自2012年1月以来,笔者科室选取100例痤疮
权利要求主题在专利维权中至关重要,一旦主题的确定未遵循“产业链原则”,而没有保护能够单独生产、销售的最小保护单元,将可能使得专利权人的权益无法最大化,从而给专利权人
目的 探讨和血明目片联合羟苯磺酸钙胶囊口服治疗玻璃体混浊的疗效.方法 选择2012 年1 月~ 2015 年1 月收治的玻璃体混浊患者50 例(共75 眼),全部患者均给予和血明目片联合羟苯