自动驾驶中基于端到端的驾驶策略学习方法研究

来源 :大连大学 | 被引量 : 0次 | 上传用户:gliu0307
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
交通工具智能化是社会发展和科技发展的必然趋势,智能驾驶车辆的研究和普及能够极大地缓解因传统机动车辆数量急剧上升带来的一系列社会问题,比如车辆尾气造成的污染、道路扩张带来的土地资源紧张以及交通事故等。在自动驾驶研究领域中,由于强化学习善于解决序贯决策问题,备受自动驾驶研究人员的青睐。本课题专注于深度强化学习算法优化,并依托于智能驾驶任务予以验证和对比分析。针对深度强化学习需要大量的探索试错导致学习效率低的问题,本文通过两种不同的思路将模仿学习(Imitation Learning,IL)和深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)进行结合,提出了两种新的端到端学习方法用于智能驾驶系统的仿人驾驶策略学习。首先,提出一种基于模仿学习的深度确定性策略梯度算法框架(DDPG-IL),算法将雷达等多种传感器数据作为输入,直接输出车辆的控制指令。该框架分为两部分:模仿学习部分,首先通过收集少量标签数据训练模仿学习网络,再利用训练完成的模仿学习网络生成演示数据;深度强化学习部分,利用模仿学习获取的数据对深度确定性策略梯度网络进行初始化,在线学习驾驶策略时,通过构建双经验缓存池来动态分配演示数据和探索数据的学习比例,进一步提升算法的学习效率。其次,提出基于视觉的深度模仿强化学习框架(Deep Imitation Reinforcement Learning,DIRL),算法解决将第一人称视角的驾驶图像直接转换为车辆的驾驶指令。该框架将自动驾驶决策分为感知模型和控制模型两个部分。感知模型采用IL网络作为编码器,将输入的驾驶图像处理为低维的特征向量。控制模型采用DDPG算法构建,接收来自感知模型的特征向量输出车辆的控制指令。在训练过程中,通过收集少量标签数据训练IL网络,并利用训练有素的IL网络初始化DDPG的Actor网络,以提高探索效率。此外,通过定义仿人驾驶的驾驶回报函数,提高自动驾驶车辆在弯道上的安全性和稳定性。此外,通过使用模拟器(The Open Racing Car Simulator,TORCS)的仿真实验平台,对两种方案进行仿真实验和结果分析。实验中用来训练IL网络的标签数据来自于手动操作赛车进行驾驶数据收集。通过与传统算法以及其他改进算法进行实验对比,仿真结果表明,方案一提出的DDPG-IL算法学习驾驶策略的速率提升约20%,方案二提出的DIRL算法拥有平均30%的学习效率提升,并且在弯道处的行驶安全性提升明显。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
学位
学位