基于增强学习的智能车辆自主决策方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:lmmak
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能驾驶车辆技术的发展对于保证车辆行驶安全性和缓解城市的交通压力具有重要的意义。智能驾驶车辆是人工智能的一个重要应用领域,智能车辆自主决策能力的高低在一定程度上可以代表其智能化水平的高低。增强学习是机器学习的一个重要的分支,充分发挥增强学习的优点,利用增强学习算法解决智能车自主决策问题,提高智能车对动态复杂环境的自适应性,是智能车领域的一个研究重点。本文在现有的智能车辆驾驶技术研究的基础上,对智能驾驶车辆在结构化道路环境中换道决策行为展开深入研究。目前基于规则决策方法的认知规则库存在设计不全面的缺陷和基于统计决策方法需求数据大的缺陷,难以适应形式复杂多变的动态结构化道路环境,针对结构化道路环境中换道决策问题,本文提出基于增强学习的智能车辆驾驶换道决策模型,提高车辆的智能化水平。本文主要研究成果和创新点包括:(1)针对大规模或连续状态空间问题,本文提出基于多核的最小二乘策略迭代算法(MKLSPI,Multi-Kernel Least Squares Policy Iteration),该算法利用核函数自动构建特征以及多个核函数线性加权实现自动调整学习参数,以精确地逼近策略迭代过程中的值函数。增强学习算法在实际应用中需要解决人为设置参数较多或参数调整困难等问题。本文所提算法,减少了需要人为设置优化参数的数量,提高了算法的自适应性。通过Mountain-car和Pendulum两个经典的学习控制平台对本文提出的算法进行了性能测试,测试结果表明该算法能够在保证算法性能的同时减少人为设置参数的数目,降低参数的优化调整难度。(2)针对高速公路环境中的智能车自主换道决策问题,本文提出一种基于MKLSPI算法的智能车自主换道决策方法,该方法首先将智能车换道决策问题建模为MDP模型,且该MDP模型的状态空间是连续的,然后通过MKLSPI算法进行学习训练,最后得到最优或近似最优策略。利用增强学习方法解决智能车驾驶决策问题,通过与环境交互,从样本数据中获取经验知识,提高决策系统在动态复杂多变环境中的自适应性。最后通过仿真环境,对本文提出的基于增强学习的智能车自主换道决策方法进行测试,并且通过修改MDP模型参数从而训练得到不同驾驶风格的驾驶策略,测试结果均证明本文所提方法的可行性和有效性,而且与相比其他方法相比,该方法在性能以及参数调整优化等方面存在一定的优势。(3)为了符合当前的高速公路环境,本文设计实现了基于多车道的智能车高速公路驾驶自主换道决策系统。为解决此类状态维数较大的MDP问题,本文提出使用基于多核的近似策略迭代方法解决,通过仿真环境对该方法进行初步测试和验证,然后将本文提出的方法嵌入到实车程序中,通过实车感知数据对本文所提方法进行离线测试,结果表明,在动态车流环境下,利用该方法得到的驾驶决策系统,能够保证智能车像人类驾驶员一样从容面对各种复杂多变的交通环境,保证智能车安全行驶,为增强智能车自主决策能力奠定了一定的基础。
其他文献
目的:观察中药外敷治疗手外伤术后肢体肿胀的临床疗效。方法:120例手外伤术后肢体肿胀患者,随机分两组。治疗组60例,予中药外敷治疗;对照组60例,应用常规碘伏消毒后无菌纱布
随着车辆智能化、网联化研究的不断深入,智能汽车逐渐成为未来的发展趋势。智能汽车的关键技术在于如何让汽车对前方道路环境进行准确、及时的认知。因此,研究一种实时性好、准确率高的车载环境感知算法在智能车辆避障、自动巡航等方面有着重要的意义。首先,为了解决障碍物候选区域选取时间长和障碍物识别准确率低的问题,提出了一种基于立体视觉和卷积神经网络的障碍物检测和识别算法。该算法采用半全局匹配算法计算左右图像的视
协作性公共服务是一种对官僚科层制单中心供给和新公共管理分权竞争供给的反思与修正,它强调政府、市场、社会组织和民众等治理主体,在平等协商的基础上,以增进公共价值为导
目前目标探测多是利用图像来完成,但当探测距离较远或者周围有较多伪/假/干扰目标,其图像的纹理、形状等信息不明显,此时图谱关联探测能更好地进行目标探测识别,尤其是运动目标。不同的物质有不同的光谱曲线,因而物质的光谱特性具有唯一性,可作为物质判别的依据。但是探测系统获得的光谱在各个谱段上响应不完全相同,同时获得光谱信息会受到大气的吸收、散射、辐射等的影响,使得传感器的测量值与目标实际光谱辐射值不一致。
大学生村官扎根基层,在取得基层干部群众普遍认可的同时,在服务基层党组织建设上作用发挥不充分。文章分析其中的表现和原因,进而提出了加强大学生村官有效服务农村基层党建
"现在的快递真的很快,特别方便",家住北京市西城区广安门外的杨小姐抱着两个快递纸箱指着旁边的"垃圾堆"对《中国信息界》记者说,"电商+快递真是完美组合,现在的生活离不开他
伽马射线是目前诱变育种中最为经典,同时也是最为常见的一种诱变剂,与其他辐射源相比较(α-射线、β-射线、X-射线等),伽马射线具有高能量、短波长、强穿透力等物理特点,一直
会计概念中的生态效益外部性计量应从生态效益价值计量和生态收益计量两方面入手。生态效益价值计量将广泛运用公允价值模式,并结合生态学等学科方法,在生态效益生态因子计量
第一部分Galangin对慢性哮喘小鼠模型气道重塑的影响及机制研究【目的】探讨Galangin对鸡卵清蛋白(ovalbumin,OVA)诱导的慢性哮喘小鼠模型气道重塑的影响及机制。【方法】48
本试验通过设置玉米大豆间作行比探讨了大豆的冠层特性和养分积累规律,试图明晰玉米大豆间作条件下大豆冠层特性和养分积累规律,为优化玉豆间作种植配比模式,实现高产高效提