论文部分内容阅读
由于陆地资源在不断枯竭,许多国家将目光转移到具有丰富矿产资源、渔业资源的海洋。智能水下机器人可自主实施水下环境中海洋资源的开采,避免人工水下作业带来的安全风险,而水下机器人的自主导航能力是其能够顺利实施水下作业的重要前提。针对常规的自主导航算法在复杂的水下环境中存在运算量过大、无法实现实时导航,而强化学习则会遭遇维度灾难、需要花费大量时间来训练学习等问题,本论文提出了采用改进型的DDQN算法来研究水下机器人在未知环境中的自主导航,该算法赋予了水下机器人自主学习的能力,提高了机器人在不同环境中工作的自适应性,解决了传统自主导航算法的瓶颈问题,实现了水下机器人在无地图信息环境中的自主导航。水下机器人自主导航可以分解成为两个子任务:局部避障和全局导航。因此本文提出了一种模块化的神经网络架构,主要包括局部避障神经网络模块和全局导航神经网络导航模块。局部避障神经网络模块用于引导水下机器人远离障碍物;全局导航神经网络模块用于引导水下机器人以较短的路径趋向目标位置。常规的DDQN算法的奖励值只能影响到相邻状态的状态-动作Q值,本文提出的多步机制DDQN算法(Mu Lti-step DDQN,MS-DDQN),实现了将奖励值的影响向后几个状态的状态-动作Q值延伸,提升了水下机器人感知未来状态信息的能力,使得水下机器人具有更强的导航避障能力。为了加快深度神经网络的收敛速度,以及使得水下机器人能够学到最优的路径导航策略,提出了一种新的连续组合奖励函数。在原来奖励函数的基础上添加了方向奖励和危险奖励,通过这两个奖励使得机器人远离障碍物和朝着目标位置前进。本文中采用几何法来描述障碍物环境信息,并对障碍物进行相应的膨化处理,进而可将水下机器人视为一个质点来处理。本文使用Python语言和Pygame库构造训练仿真环境模型和仿真水下机器人模型,并采用主流的深度学习框架Tesnorflow搭建本文提出的模块化神经网络结构。最后,采用MS-DDQN算法在仿真水下环境中训练水下机器人的自主导航模型。通过将水下机器人在不同的测试环境中进行测试,对比分析实验结果,证明了所提出的MS-DDQN算法比传统DDQN具有更高的学习能力和更强的泛化能力,基于MS-DDQN算法的水下机器人可在不同未知复杂环境中实现自主导航,而不用针对新的环境重新训练。