基于深度强化学习的移动机器人目标导航研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hanxianzhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的二十年中,机器人的身影在许多人类活动中变得越来越常见。移动机器人具备在室内环境中可靠地搜索、避开障碍和到达任意物体附近等执行任务的能力。由于大部分的导航方法都需要环境地图,所以当移动机器人在面对一些不可能取到地图的场景时,例如火灾现场、地震现场或室外场景时,其导航能力会大大受到限制。最近,随着深度强化学习模型的兴起,基于此方法的机器人导航引起了广泛的关注。在深度强化学习中,机器人通过与环境的交互,即通过在环境中执行具有最大回报的动作,获得导航能力。深度强化学习在执行动作同时接收回报,促进完成任务目标就给予正回报,否则给予负回报,通过取优并且不停的重复这一过程进行训练。在无环境地图与仅有视觉输入的情况下,为了提升移动机器人的导航能力,本文实现了一个以深度强化学习为核心的移动机器人导航系统。由于深度强化学习在训练过程中需要不断重复的执行任务,耗时大且容易损坏机器人,因此在实际环境中直接训练机器人是不可行的。本文中对机器人的训练主要步骤是在虚拟环境中训练真实机器人的虚拟模型,直到学习到其所需的能力,然后将知识迁移至真实环境中的真实机器人身上。但在将虚拟环境中训练完成的导航算法迁移至现实环境中时,由于虚拟环境与现实环境差别过大,会使机器人的导航性能急剧下降。为了解决深度强化学习从虚拟环境迁移到现实环境泛化能力差的问题,本文提出了一个具有知识的预处理层与深度强化学习组合算法模型,缓解了从虚拟环境移植算法至现实环境中导致的性能断层问题,以及虚拟传感器与现实传感器的性能差异所带来的问题。本文在机器人导航实验中,以Turtlebot为机器人主体,在室内环境中验证了上述算法的避障能力与导航能力。针对制定的机器人导航任务对预处理层与深度强化学习模块进行了详细的设计以及部署。使机器人能在虚拟环境训练具有导航能力,并将得到的导航能力迁移至实际环境中,并对导航实验结果进行了分析。最终证明预处理层与深度强化学习算法可以缓解从虚拟环境移植算法至现实环境中导致的性能断层问题,并且在无环境地图的情况下具有一定的避障能力与避障能力。
其他文献
天然植物挥发性化学成分是一类分子量在100-300之间的有机化合物,在植物、植食性昆虫和天敌三重营养关系中起着重要作用,是植物与植物之间或昆虫与植物之间联系的信息化合物
黑包山地区位于阿奇克库都克断裂北侧,其西北部有近年发现的阿奇山大型铅锌矿、红云滩铁矿,东部有黑包山铁矿、百灵山铁矿等。该地区处于新疆重要的铁、铜、镍、金等多金属成矿
针对大系统顺序故障诊断中的测试排序问题,介绍一种基于信息熵的最少测试费用诊断树产生算法,这种算法比传统算法计算量少,又可有效利用测试结果、测试费用和故障概率等信息,
<正>一、问题由来俗话都说教师和医生越老越吃香,因为医生越老,从医经验也越丰富,见过的疑难杂症多了,医治病人自然得心应手。而教师并非如此,如果还拿着一成不变的知识结构
财务共享服务下时代,业务信息与财务信息的转化更加迅速和便捷,能够迅速、高效传递的数据流根据需要携带更多的信息。管理会计产生了可以被动获取信息作出分析,转向以分析目
农民组织化建设是推进扶贫开发的重要途径,农民合作社是农业组织化建设的具体实现形式。美国、丹麦、德国和日本等发达国家都把发展农民合作社作为反贫困的重要举措,并推出一
铀矿开采与冶炼过程中会向环境中释放一定量的铀,其放射性危害和重金属毒性会引起一系列生态安全问题。论文针对铀污染的危害,根据微生物对U(VI)的还原行为,探索生物炭对微生物还原固定U(VI)的介导作用,开展了生物炭对U(VI)的吸附研究、低吸附率条件下生物炭介导微生物还原固定U(VI)研究、环境中铁氧化物对生物炭介导微生物还原固定铀的影响研究,得出以下结论:(1)控制pH值近中性,在不同浓度NaHC
在我国期刊的百花园中,党刊是一道独特的风景:45家地方党刊,每期发行总量达1009万份,平均期印1100万册;平均期印数在15万份以上的有28家、30万份以上的有20家。在新媒体时代,
在新的形势下,对黄河下游引黄灌溉中泥沙自理和利用庆提高到一个新的认识高度,变泥沙“包袱”为“资源”。泥沙长距离输送,使绝大部分泥沙进入田间,就可实现引黄灌溉的良性循环。