论文部分内容阅读
随着人工智能技术的飞速发展,汽车产业的技术革命迫在眉睫。近年来,无人驾驶汽车,作为两者的结合,逐渐受到越来越多学者以及产业界的关注。导航算法作为自动驾驶的核心组成,旨在提供一条精确的可供车辆跟随的轨迹,该轨迹需满足在驶向目的地的同时,避开途经障碍物。然而,现有导航算法大多严重依赖于详细的高精度先验地图以及高精度定位设备,在地图动态变化或有高楼树林等对GPS信号严重遮挡的情况下很容易失效。并且高精度地图的采集与维护成本以及高精度定位设备所需成本居高不下,这也给无人驾驶汽车的大规模普及带来极大的阻碍。基于以上考虑,本文提出一种基于强化学习的“低成本”导航算法,摆脱对高精度地图以及高精度定位设备的依赖。本文在强化学习深度确定性策略梯度法(Deep Deterministic Policy Gradient,DDPG)的基础上,重新设计了网络结构以及算法的输入输出,实现了从全局参考路点以及车辆周围低维度障碍物信息到车辆前轮打角的映射。对数据进行了预处理,将归一化后的障碍物信息以及车体坐标系下的参考路点作为网络的实际输入,极大的加快了网络的收敛速度。为摆脱对高精度地图以及高精度定位设备的依赖,本文专门设计了相应的奖励函数,分别对跟踪参考轨迹、避开障碍物等任务施加不同的奖励值,使得车辆能在与环境交互过程中学会在不严重依赖全局参考信息的同时,实现在驶向目的地的过程中避开障碍物。在训练过程中,本文提出一种“由浅入深”的学习策略,令车辆所处环境的难度逐渐加大,使其按照先后顺序依次学会跟踪参考路点,在跟踪准确参考路点的同时实现避障,并最终学会在参考路点准确率很低、定位结果精度不高、跳变甚至定位信号完全丢失的情况下,仍能实现导航任务。这种“由浅入深”的学习策略,避免了车辆在开始阶段就受到多种不同奖励函数的共同作用导致的长时间“不知所措”,而无法收敛。同时,在仿真环境中实现了对车辆运动学以及车辆几何尺寸的考虑,使车辆能够学会在以上约束下输出最优前轮打角。仿真结果表明经过充分训练后,车辆有能力在地图不准、定位不准甚至信号丢失的情况下,仍能成功导航到目的地。同时,本文进一步将该算法应用于实际车辆平台上。考虑到仿真环境中的车辆模型与实际的车辆系统有较大差距,将网络计算所得前轮打角值直接作为实际车辆系统的控制输入是不合理的。因此本文采用一种类似“平行驾驶”的概念,用路径这个桥梁连接仿真环境与实际车辆系统,让虚拟的车先在假想的环境中行驶一段距离,再将虚拟的车的行驶轨迹作为实际车辆的路径规划结果。将运动规划器转换为路径规划器。本文在树木茂密的地方进行了实车测试。为进一步模拟更加极端的情况,人为在定位结果上叠加随机噪声。同时,本文还将基于DDPG的算法与无人驾驶汽车中常用的离散优化方法进行对比。实车实验表明,该方法能有效摆脱对高精度地图以及高进度定位设备的依赖。同时可以引入对车辆运动学约束以及车辆几何尺寸约束的考虑,并输出在以上约束下的最优路径,使规划结果更接近车辆实际运动轨迹。避免了由于实际运动与规划结果不一致导致的规划失败的情况。综上,本文主要创新点及贡献包括:1.基于强化学习DDPG算法,提出了一种“低成本”导航算法。重新设计了网络结构以及输入输出。提出了一种数据预处理方案以加快网络学习效率。并且,根据实际问题重新设计了针对特定问题的奖励函数。使得车辆在与环境交互过程中,学会仅依靠不精确的参考轨迹以及低精度定位结果给出的大致行驶方向,即能完成导航任务。2.在训练过程中,提出了一种“由浅入深”的学习策略,使得任务难度逐渐增加。避免了车辆在开始阶段就受到多种不同奖励函数的共同作用导致的长时间“不知所措”而无法收敛。同时在训练环境中实现了对车辆运动学以及车辆几何尺寸的考虑,使得车辆在训练过程中学会输出在该约束下的最优动作。3.结合“平行驾驶”的思想,提出了一种通过路径这个桥梁连接仿真环境与实际车辆系统的方法,解决了仿真环境中的车辆模型与实际的车辆系统有较大差距的问题。同时,仿真训练的模型实现了对车辆运动学以及车辆几何尺寸等约束的考虑,因此规划结果更接近车辆实际运动轨迹。