论文部分内容阅读
在过去的二十年中,机器人的身影在许多人类活动中变得越来越常见。移动机器人具备在室内环境中可靠地搜索、避开障碍和到达任意物体附近等执行任务的能力。由于大部分的导航方法都需要环境地图,所以当移动机器人在面对一些不可能取到地图的场景时,例如火灾现场、地震现场或室外场景时,其导航能力会大大受到限制。最近,随着深度强化学习模型的兴起,基于此方法的机器人导航引起了广泛的关注。在深度强化学习中,机器人通过与环境的交互,即通过在环境中执行具有最大回报的动作,获得导航能力。深度强化学习在执行动作同时接收回报,促进完成任务目标就给予正回报,否则给予负回报,通过取优并且不停的重复这一过程进行训练。在无环境地图与仅有视觉输入的情况下,为了提升移动机器人的导航能力,本文实现了一个以深度强化学习为核心的移动机器人导航系统。由于深度强化学习在训练过程中需要不断重复的执行任务,耗时大且容易损坏机器人,因此在实际环境中直接训练机器人是不可行的。本文中对机器人的训练主要步骤是在虚拟环境中训练真实机器人的虚拟模型,直到学习到其所需的能力,然后将知识迁移至真实环境中的真实机器人身上。但在将虚拟环境中训练完成的导航算法迁移至现实环境中时,由于虚拟环境与现实环境差别过大,会使机器人的导航性能急剧下降。为了解决深度强化学习从虚拟环境迁移到现实环境泛化能力差的问题,本文提出了一个具有知识的预处理层与深度强化学习组合算法模型,缓解了从虚拟环境移植算法至现实环境中导致的性能断层问题,以及虚拟传感器与现实传感器的性能差异所带来的问题。本文在机器人导航实验中,以Turtlebot为机器人主体,在室内环境中验证了上述算法的避障能力与导航能力。针对制定的机器人导航任务对预处理层与深度强化学习模块进行了详细的设计以及部署。使机器人能在虚拟环境训练具有导航能力,并将得到的导航能力迁移至实际环境中,并对导航实验结果进行了分析。最终证明预处理层与深度强化学习算法可以缓解从虚拟环境移植算法至现实环境中导致的性能断层问题,并且在无环境地图的情况下具有一定的避障能力与避障能力。