论文部分内容阅读
无人驾驶的决策控制是无人驾驶技术的核心,它需要根据道路场景的感知信息做出安全、合理的决策,特别是对各种场景下不可控突发状况的决策,面对这一的难题,急需一种能够自主学习且泛化能力极强的智能决策方法。由于深度强化学习不仅能够从零自主学习且具有强大的泛化性能,而且能够通过端到端的方式实现从原始输入到输出的直接控制的优势非常适合无人驾驶中从感知到决策控制的场景。因此将深度强化学习技术应用于无人驾驶决策控制,根据场景为车辆行驶提供智能决策,有着十分重要的研究意义。由于无人驾驶的输出动作是连续的且在无人驾驶动作空间随机探索可能会导致意想不到的后果,因此本文采用深度强化学习中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法进行无人驾驶的智能决策控制。针对传统DDPG算法收敛慢,不稳定的情况,本文提出一种基于DDPG算法改进的二次采样深度确定性策略梯度算法(DDPG with Two Sample,DDPGwTS)用于无人驾驶的决策控制。一方面在经验回放环节引入二次采样方法,首先根据序列累积回报的分布构造优先级对经验池中的序列进行采样,然后在已采样的序列中根据样本的TD偏差分布构造优先级对样本采样,随后用采样得到的样本对算法进行训练,以提高算法收敛速度和提升策略质量。另一方面提出online网络和target网络间以动态参数跟踪方式进行权重参数的传递以提高算法的收敛速度。最后基于人工智能领域著名的开源赛车模拟器TORCS对整个DDPGwTS算法框架的具体环节进行详细的设计,使其能够运用于无人驾驶的决策控制并进行性能测试,最后证明了该算法在进行无人驾驶决策控制的有效性。该论文有图21幅,表12个,参考文献51篇。