论文部分内容阅读
科学技术的进步推动着人工智能的快速发展,强化学习作为人工智能重要分支领域的研究越来越被广泛应用,特别是在解决智能移动机器人导航与探索问题方面。移动机器人导航技术是基础也是机器人完成任务规划的重要保障,例如无人驾驶技术,智能无人机,智能空天一体化技术等都离不开导航技术的发展,而路径规划作为移动导航技术的基础备受广大学者的关注。由于智能移动机器人所面临的环境复杂且多变,传统的路径规划方法已不能满足现有的要求,更加智能化的路径规划算法亟待研究,目前将强化学习与移动机器人导航技术相结合是路径规划算法智能化研究的重要方向之一。鉴于此,针对未知环境下的智能移动路径规划问题,本文提出了一种基于强化学习的机器人路径规划算法,该算法在强化学习框架下开展了路径规划的深入研究,通过机器人“试错”的方式智能探索路径,达到了学习与规划同步完成,满足并适用各种复杂的环境。本文研究内容如下:1、改进传统规划算法在未知环境下距离优化问题,本文提出一种基于启发式报酬函数的DQN(Deep Q_learning Network)算法。该算法在A*最短路径思想基础上,设计一种以距离作为评判标准的启发式报酬函数,通过当前执行动作对环境信息的探索与理解,利用深度神经网络的计算与反馈,帮助机器人能够快速对当前执行的动作以距离最优为目的的动态抉择,提升算法在距离计算方面的学习效率,并获得其最优解。该算法应用Python语言结合Tkinter模块搭建了两种仿真环境进行验证。其结果表明,在环境复杂训练充分的前提下,本算法相比于RRT、DDPG和原始DQN算法优势明显,路径规划距离分别缩短了33.3%、25.9%、31%(传统的A*算法无法完成规划任务),但在搜索时间方面略显不足。2、为了解决启发式报酬函数的DQN算法时间成本的问题,本文设计了一种基于记忆机制的优化DQN算法。该机制在记忆库的建立与更新两个方面进行了优化:1)在记忆库建立阶段减少相似记忆,增加无关联记忆;2)在记忆库更新方面采用“TD-error”最小原则方法。以此提高了记忆库中动作的最大学习率,避免重复动作的选择与使用,改善了动作学习的时间成本,达到距离最优兼顾减少搜索时间的目的。该算法应用Python语言结合Tkinter模块搭建了两种仿真环境进行验证。其结果表明,引入记忆优化机制经充分训练后,与RRT、DDPG和原始DQN算法在搜索时间方面相比分别缩短了14.3%、9.1%和53.8%,同时Loss函数图也印证了学习效果最佳。综上所述,本文提出的基于强化学习的路径规划改进方法在距离最优兼顾搜索时间方面取得了较好的研究结果,达到了预期效果,对智能移动导航方面具有较强的理论与现实意义。