基于深度强化学习的智能汽车车道保持控制研究

来源 :重庆理工大学 | 被引量 : 1次 | 上传用户：xulinsheng

【摘要】

：

【作者】

：

杨小青

【机构】

：

重庆理工大学

【出处】

：

重庆理工大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如今,随着人工智能的不断进步,汽车也进入到智能化时代,全球许多知名汽车生产制造企业大量投资到自动驾驶技术领域。而自动驾驶技术作为信息技术革命的产物,对促进环境可持续发展、改善城市交通以及对驾驶安全性的作用举足轻重。目前常见的自动驾驶方案均是感知-决策-控制等子模块的融合,这样的模式存在着多项难点:1、基于规则的策略需要大量的人工设计,不仅流程复杂繁琐,而且成本耗费极大;2、无法适应人员密集、错综复杂的城市交通环境;3、下层模块与上层模块紧密相连,系统的维护繁琐冗杂。鉴于这些难题,本文首先通过Torcs仿真软件验证深度强化算法应用在智能驾驶上的可行性,然后通过Carla城市驾驶仿真模拟器,对智能驾驶的车道保持任务进行了仿真实验研究,旨在通过端到端的控制方法解决传统上下模块过于依赖的问题。首先,本文使用免手工调参、免模型、能够自适应学习的深度确定性策略梯度算法（Deep Deterministic Policy Gradient,DDPG）,该算法依赖于actor-critic框架,不仅克服了高维输入的问题,连续动作输出的难题也得到了解决。首先应用DDPG算法在Torcs仿真环境中针对CG1和CG2赛道完成仿真训练,结果证明DDPG算法能针对无人驾驶汽车训练出良好的控制策略,验证了DDPG算法应用于智能汽车控制的可行性。然后,为了进一步还原真实的驾驶场景,编写了基于Carla仿真环境的DDPG代码。其代码的编写部分分为环境、神经网络、智能体三个模块。Open AI中的Gym提供了近乎标准的环境代码编写规则,本文的环境采用了与Gym一致的规则,环境的编写分为了reset、step、render、reward四个方法。神经网络部分遵循了DDPG原本的框架,分为了actor和critic两个网络进行编写。智能体部分的代码是DDPG算法的核心部分,主要由train方法完成整个算法的训练,DDPG的智能体与环境发生交互,以试错的方式进行训练,在训练的每一步中调整改善驾驶策略,直到找到最优控制策略。其次,强化学习算法在训练的过程中需要进行无规则的试错,试错的行为对于汽车行驶来说代价太大。因此针对强化学习需要试错这一特性,在DDPG算法基础之上,于环境和智能体之间设计了一个实时监控汽车危险行为的监督器,可以对智能体的危险动作进行约束并加以修正,以此达到减少试错行为并提升训练效率的目的。DDPG算法以及监督式DDPG算法在Carla仿真环境中分别训练70000个回合,仿真结果显示,DDPG算法以及监督式DDPG算法最终达到了一致的训练效果,均能有效避开障碍,在没有违规驾驶的条件下正常行驶,但监督式DDPG算法比DDPG收敛速度更快。其次,以地图、动态因素数量、天气作为控制变量,以车道保持任务对两种算法模型在实验平台的统一评估方案下进行了评测实验,最终监督式DDPG在无动态因素以及有动态因素环境中平均任务完成度分别为98%和89%,DDPG任务完成度分别为97%和88%。与2017年Carla官方论文的车道保持任务相比,极大地提高了平均任务完成度。用深度强化学习算法对自动驾驶汽车进行端到端的控制,不仅有效改善传统方案上下模块依赖严重的弊端,而且缩短了开发周期。尽管监督式强化学习最终的控制效果与原始算法无异,但是显著提高了收敛速度,且有效降低了智能体前期的试错频率。因此,监督学习与强化学习的结合,可以为降低强化学习试错风险提供一种新的解决思路,为深度强化学习的端到端智能驾驶从仿真环境到实际应用的实现提供一定的参考价值。

其他文献

基于安全风险防御机制护理管理对手术室护理质量、护理风险事件的影响

目的探讨基于安全风险防御机制护理管理对手术室护理质量和护理风险事件的影响。方法按基本资料匹配原则选取医院收治的2020年6—10月手术患者300例为对照组，选取2021年1—5月收治的手术患者300例为观察组。对照组采用常规手术室护理管理，观察组实施基于安全风险管理防御机制的护理管理。在两个时间段中对手术室护士护理风险防范认识和能力进行考核评分，同时比较两组患者护理质量和护理风险事件发生情况。

期刊

基于深度强化学习的车辆自主跟随决策研究

随着城市化进程和车辆保有量的快速增长,跟车驾驶已成为日常驾驶中最常见的驾驶行为,而且跟车模型已广泛应用于微观交通仿真与驾驶辅助系统测试等领域。对于自动驾驶车辆来说安全、舒适的驾驶将提高乘员满意度和信任度,降低油耗为车主带来经济效益。本课题从深度强化学习算法与跟车行为特性两个层面研究,以达到车辆更安全、更舒适和更高效地自主跟随驾驶的目标。首先,基于自然驾驶数据,采用统计学理论进行跟车行为特性分析。以

学位

N公司车联网产品的跨车型规划研究

21世纪以来,中国汽车工业发展迅速,成为世界第一汽车产销大国,中国消费者对汽车产品的需求也正经历着快速迭代,中国的汽车市场面临着激烈的竞争,汽车产品规划对汽车产品的竞争力起决定性作用。在汽车产品规划领域,经过国内外多年的研究和实践,已经形成了较为完善的产品组合规划和车型规范方法,本文在现有研究成果的基础上,从产品与品牌战略、用户体验管理、市场调研和具体实践经验等方面进行分析总结,建立一种跨车型产品

学位

基于AMT的双电机插电式混合动力汽车能量回收策略研究

2021年以来新能源汽车一直保持在产销两旺、质量高、市场大的活力状态。“十四五”以来,插电式混合动力汽车更是成为了炙手可热的话题,其既可以满足驾驶者的长途里程要求,同时又能够实现绿色出行的目的。插混汽车优秀的节油效果得益于其成熟的混合动力技术。驱动和能量回收的控制策略则是其中至关重要的一环。制动力的分配和能量回收换挡策略的研究能很好地提高所回收的能量,从而提高整车的经济性。本文以搭载AMT的双电机

学位

T公司配电变压器装配—试验工序生产效率改善研究

随着中国经济和社会的快速发展,配电变压器的市场需求和市场环境发生了前所未有的变化和趋势:产品需求呈现高度定制化的趋势;订单结构呈现小批量和多品种的趋势;产品交付呈现短期化和快速化的趋势;价格竞争呈现白热化和差异化的趋势。配电变压器制造企业迫切需要提高生产效率、降低生产成本、提高产品交付能力和缩短产品制造周期等来提升企业竞争力、适应市场变化和满足客户需求变化。精益生产作为先进的生产管理方式,将有助于

学位

钙钛矿电池产业化速度猛增

报纸

中国新型政党制度国际话语权构建：现状、问题与路径

中国共产党领导的多党合作和政治协商制度孕育发展于中国革命、建设和改革的伟大实践，完善于中国特色社会主义新时代，在中国政治经济发展、国家治理现代化、全过程人民民主等领域显示出强大生命力和独特政治优势，为人类政治文明进步贡献了中国智慧和中国方案。然而，中国新型政党制度的巨大优势尚未转化为与之相匹配的国际话语权。中国新型政党制度国际话语权作为一种“软实力”,必须以国家经济、科技、军事等“硬实力”为基础，

期刊

储能锂离子电池多层级失效机理及分析技术综述

锂离子电池电化学和安全性能与其材料、极片和电池各层级的特性密切相关，揭示储能锂离子电池多层级的失效机理，可为储能锂离子电池的设计优化、使用管控提供指导。本文以广泛应用的磷酸铁锂储能电池为例，从材料、极片、电池层级出发，分别综述了其常见的失效形式以及对应的失效机理与表征分析技术。在本文中多层级的失效包括正负极材料的结构、组成和表界面失效以及电解液和隔膜的失效；极片的析锂、孔隙率、剥离和非均匀极化失效

期刊

基于深度强化学习的柴油机两级增压匹配及耦合控制

涡轮增压作为提升发动机动力性、降低排放的重要技术,已经在发动机上广泛使用。普通的单级涡轮增压受限于结构、尺寸等因素,存在涡轮迟滞、工作工况范围较窄等缺点。汽车工程师采用两级增压来改善上述缺点,其中电辅助增压应用较为广泛,电动增压系统可以在低速工况和加速工况进行快速响应,在一定条件下还可以进行能量回收,废气涡轮增压在高速工况下具有较高的经济性,将两者结合可以实现更好的增压效果。两级增压系统存在气动耦

学位

基于三分图自动生成的抠图算法及其应用研究

图像抠图技术已广泛应用于图像合成、影视制作、虚拟现实等场景中。该技术依赖将图像划分为前景、背景和未知区域的三分图,且三分图通常由人工绘制。近年来,研究人员尝试利用深度学习算法解决三分图自动生成问题,以实现图像抠图技术的自动化。目前三分图自动生成算法未考虑三分图的不同误差对图像抠图算法影响的差异,生成的三分图中存在较多错误的条件信息,对图像抠图算法造成了错误引导,导致三分图自动生成算法错误率高,严重

学位

基于深度强化学习的智能汽车车道保持控制研究

与本文相关的学术论文