基于强化学习的智能车低成本导航

来源 :浙江大学 | 被引量 : 0次 | 上传用户：Thomas1007

【摘要】

：

随着人工智能技术的飞速发展,汽车产业的技术革命迫在眉睫。近年来,无人驾驶汽车,作为两者的结合,逐渐受到越来越多学者以及产业界的关注。导航算法作为自动驾驶的核心组成,

【作者】

：

王通

【出处】

：

浙江大学

【发表日期】

：

2004年期

【关键词】

：

无人驾驶导航强化学习低成本平行驾驶

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人工智能技术的飞速发展,汽车产业的技术革命迫在眉睫。近年来,无人驾驶汽车,作为两者的结合,逐渐受到越来越多学者以及产业界的关注。导航算法作为自动驾驶的核心组成,旨在提供一条精确的可供车辆跟随的轨迹,该轨迹需满足在驶向目的地的同时,避开途经障碍物。然而,现有导航算法大多严重依赖于详细的高精度先验地图以及高精度定位设备,在地图动态变化或有高楼树林等对GPS信号严重遮挡的情况下很容易失效。并且高精度地图的采集与维护成本以及高精度定位设备所需成本居高不下,这也给无人驾驶汽车的大规模普及带来极大的阻碍。基于以上考虑,本文提出一种基于强化学习的“低成本”导航算法,摆脱对高精度地图以及高精度定位设备的依赖。本文在强化学习深度确定性策略梯度法(Deep Deterministic Policy Gradient,DDPG)的基础上,重新设计了网络结构以及算法的输入输出,实现了从全局参考路点以及车辆周围低维度障碍物信息到车辆前轮打角的映射。对数据进行了预处理,将归一化后的障碍物信息以及车体坐标系下的参考路点作为网络的实际输入,极大的加快了网络的收敛速度。为摆脱对高精度地图以及高精度定位设备的依赖,本文专门设计了相应的奖励函数,分别对跟踪参考轨迹、避开障碍物等任务施加不同的奖励值,使得车辆能在与环境交互过程中学会在不严重依赖全局参考信息的同时,实现在驶向目的地的过程中避开障碍物。在训练过程中,本文提出一种“由浅入深”的学习策略,令车辆所处环境的难度逐渐加大,使其按照先后顺序依次学会跟踪参考路点,在跟踪准确参考路点的同时实现避障,并最终学会在参考路点准确率很低、定位结果精度不高、跳变甚至定位信号完全丢失的情况下,仍能实现导航任务。这种“由浅入深”的学习策略,避免了车辆在开始阶段就受到多种不同奖励函数的共同作用导致的长时间“不知所措”,而无法收敛。同时,在仿真环境中实现了对车辆运动学以及车辆几何尺寸的考虑,使车辆能够学会在以上约束下输出最优前轮打角。仿真结果表明经过充分训练后,车辆有能力在地图不准、定位不准甚至信号丢失的情况下,仍能成功导航到目的地。同时,本文进一步将该算法应用于实际车辆平台上。考虑到仿真环境中的车辆模型与实际的车辆系统有较大差距,将网络计算所得前轮打角值直接作为实际车辆系统的控制输入是不合理的。因此本文采用一种类似“平行驾驶”的概念,用路径这个桥梁连接仿真环境与实际车辆系统,让虚拟的车先在假想的环境中行驶一段距离,再将虚拟的车的行驶轨迹作为实际车辆的路径规划结果。将运动规划器转换为路径规划器。本文在树木茂密的地方进行了实车测试。为进一步模拟更加极端的情况,人为在定位结果上叠加随机噪声。同时,本文还将基于DDPG的算法与无人驾驶汽车中常用的离散优化方法进行对比。实车实验表明,该方法能有效摆脱对高精度地图以及高进度定位设备的依赖。同时可以引入对车辆运动学约束以及车辆几何尺寸约束的考虑,并输出在以上约束下的最优路径,使规划结果更接近车辆实际运动轨迹。避免了由于实际运动与规划结果不一致导致的规划失败的情况。综上,本文主要创新点及贡献包括:1.基于强化学习DDPG算法,提出了一种“低成本”导航算法。重新设计了网络结构以及输入输出。提出了一种数据预处理方案以加快网络学习效率。并且,根据实际问题重新设计了针对特定问题的奖励函数。使得车辆在与环境交互过程中,学会仅依靠不精确的参考轨迹以及低精度定位结果给出的大致行驶方向,即能完成导航任务。2.在训练过程中,提出了一种“由浅入深”的学习策略,使得任务难度逐渐增加。避免了车辆在开始阶段就受到多种不同奖励函数的共同作用导致的长时间“不知所措”而无法收敛。同时在训练环境中实现了对车辆运动学以及车辆几何尺寸的考虑,使得车辆在训练过程中学会输出在该约束下的最优动作。3.结合“平行驾驶”的思想,提出了一种通过路径这个桥梁连接仿真环境与实际车辆系统的方法,解决了仿真环境中的车辆模型与实际的车辆系统有较大差距的问题。同时,仿真训练的模型实现了对车辆运动学以及车辆几何尺寸等约束的考虑,因此规划结果更接近车辆实际运动轨迹。

其他文献

钢结构件机器人焊接特征识别与焊缝校正技术研究

智能焊接机器人在大型钢构件焊接过程中,不但拥有高于人工的操作稳定性和优于肉眼测量的加工精度,而且能够提高加工效率和降低生产成本。因此关于机器人智能化焊接技术的研究

学位

大型钢构件机器人焊接DXF提取焊缝图像处理焊缝校正

移植前供肝肝内蛋白表达谱预测DCD肝移植术后早期移植物功能障碍

研究背景和目的:早期移植物功能障碍(early allograft dysfunction,EAD)是肝移植术后常见的术后并发症,其严重影响肝移植术后移植物生存。目前对于移植医师而言,如何早期预测EAD的发生仍是一大临床挑战。本研究旨在探究移植前供肝肝内蛋白表达谱对于移植术后EAD的发生发展之间的关系,并联合相关临床参数,构建EAD预测模型。研究方法:回顾性收集分析自2014年1月至2016年1月

学位

DCD供肝早期移植物功能不全血管内皮生长因子免疫组化分析风险评估模型

机箱装配基本单元视觉检测与鉴别关键技术研究

机箱是电脑与智能电子设备等高科技产品关键配件之一,目前机箱装配质量检测标准与检测方法严重滞后于机箱设备行业发展与市场需求。本文以“机箱装配基本单元视觉检测与鉴别

学位

机箱AEU图像分类模型深度化模型轻量化智能鉴别

冲击加载下Gd3Ga5O12单晶起始塑性、双折射和高压折射率的实验研究

在冲击波物理和高压物理力学研究领域,窗口材料的高压物理力学性质和动态响应特性研究十分关键。一方面,在其它材料的物理力学性质的实验研究中,大多需要用到透明窗口作为压

学位

Gd3Ga5O12单晶起始塑性HEL折射率双折射冲击相变

长时间序列下沈乌灌域水域面积变化分析与天然湖泊水深反演

河套灌区沈乌灌域内水域面积变化对维持灌域生态平衡具有重要影响。本文以沈乌灌域内长时间序列的土地分类为切入点,从LUCC(Land-Use and Land-Cover Change,土地利用/土地覆

学位

沈乌灌域LUCC分层分类法水域面积水深反演水体积

《空前的融合》（77-96章）汉韩翻译实践报告

笔者将硕士学位论文选定为翻译实践,以《话说中国》丛书的第八卷(共十六卷)《空前的融合》(由上海文艺出版社出版)为文本进行了汉韩翻译实践。《话说中国》是一本题材新颖的中国通史类读物,讲述了中国从200万年前到1911年的故事,包含了 1500余位历史人物,同时本书还附有大量图片、历史文化百科知识,将文化、政治、历史恰到好处地融合在一起,旨在让读者从文字、图片等各个方面了解中国历史,以及在泱泱历史长河

学位

东晋南北朝《空前的融合》汉韩翻译实践卡特福德翻译转换

基于产品协同设计的数据管理与应用技术研究

现代电子产品普遍具有专业面广、系统复杂、技术要求高等特点,其研制过程是一项复杂的系统工程。为了缩短产品研制周期、降低研制成本、提高产品质量,协同设计已成为电子产品

学位

元器件协同设计数据管理数据应用

基于自适应方向全变分和G范数正则化的图像分解方法

图像分解是图像处理领域中的一个重要研究热点.图像一般可以分解为卡通和纹理两个部分,从卡通部分的显著性边缘信息中获取图像模糊因子,从纹理部分中获取图像的噪声强度因子,

学位

图像分解卡通与纹理交替方向乘子法自适应方向全变分正则化G范数

基于多描述编码的DMB视频传输技术研究及实现

数字多媒体广播(Digital Multimedia Broadcasting,DMB)具有覆盖范围广、效率高的优势,可以同时向大批量终端发布信息等特点,能够与通信网络形成有效互补。但是由于DMB的带宽

学位

多描述编码数字多媒体广播视频推送文件推送

分枝杆菌细胞壁脂质PDIM诱导Gal-3调控炎症与肉芽肿形成的意义及其机制

目的:研究鉴定分枝杆菌细胞壁脂质PDIM诱导Gal-3表达的TLR信号通路,明确Gal-3对PDIM调控炎症介质释放的影响及其机制;并进一步研究Gal-3对PDIM介导肉芽肿形成的意义与机制。方法:将Raw264.7细胞分为正常对照组(Mock)、WT野生株和PDIM缺失突变株(命名为△PDIM)感染组。(1)Western blot检测各感染组0.5-4 h内Gal-3蛋白表达,qRT-PCR检

学位

PDIMGal-3炎症反应NF-κB肉芽肿

基于强化学习的智能车低成本导航

与本文相关的学术论文