论文部分内容阅读
智能驾驶车辆技术的发展对于保证车辆行驶安全性和缓解城市的交通压力具有重要的意义。智能驾驶车辆是人工智能的一个重要应用领域,智能车辆自主决策能力的高低在一定程度上可以代表其智能化水平的高低。增强学习是机器学习的一个重要的分支,充分发挥增强学习的优点,利用增强学习算法解决智能车自主决策问题,提高智能车对动态复杂环境的自适应性,是智能车领域的一个研究重点。本文在现有的智能车辆驾驶技术研究的基础上,对智能驾驶车辆在结构化道路环境中换道决策行为展开深入研究。目前基于规则决策方法的认知规则库存在设计不全面的缺陷和基于统计决策方法需求数据大的缺陷,难以适应形式复杂多变的动态结构化道路环境,针对结构化道路环境中换道决策问题,本文提出基于增强学习的智能车辆驾驶换道决策模型,提高车辆的智能化水平。本文主要研究成果和创新点包括:(1)针对大规模或连续状态空间问题,本文提出基于多核的最小二乘策略迭代算法(MKLSPI,Multi-Kernel Least Squares Policy Iteration),该算法利用核函数自动构建特征以及多个核函数线性加权实现自动调整学习参数,以精确地逼近策略迭代过程中的值函数。增强学习算法在实际应用中需要解决人为设置参数较多或参数调整困难等问题。本文所提算法,减少了需要人为设置优化参数的数量,提高了算法的自适应性。通过Mountain-car和Pendulum两个经典的学习控制平台对本文提出的算法进行了性能测试,测试结果表明该算法能够在保证算法性能的同时减少人为设置参数的数目,降低参数的优化调整难度。(2)针对高速公路环境中的智能车自主换道决策问题,本文提出一种基于MKLSPI算法的智能车自主换道决策方法,该方法首先将智能车换道决策问题建模为MDP模型,且该MDP模型的状态空间是连续的,然后通过MKLSPI算法进行学习训练,最后得到最优或近似最优策略。利用增强学习方法解决智能车驾驶决策问题,通过与环境交互,从样本数据中获取经验知识,提高决策系统在动态复杂多变环境中的自适应性。最后通过仿真环境,对本文提出的基于增强学习的智能车自主换道决策方法进行测试,并且通过修改MDP模型参数从而训练得到不同驾驶风格的驾驶策略,测试结果均证明本文所提方法的可行性和有效性,而且与相比其他方法相比,该方法在性能以及参数调整优化等方面存在一定的优势。(3)为了符合当前的高速公路环境,本文设计实现了基于多车道的智能车高速公路驾驶自主换道决策系统。为解决此类状态维数较大的MDP问题,本文提出使用基于多核的近似策略迭代方法解决,通过仿真环境对该方法进行初步测试和验证,然后将本文提出的方法嵌入到实车程序中,通过实车感知数据对本文所提方法进行离线测试,结果表明,在动态车流环境下,利用该方法得到的驾驶决策系统,能够保证智能车像人类驾驶员一样从容面对各种复杂多变的交通环境,保证智能车安全行驶,为增强智能车自主决策能力奠定了一定的基础。