基于WGAIL-DDPG的车辆自动驾驶控制策略

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:qdchengr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,自动驾驶已经成为车辆工程领域的研究热点并引领着未来的产业化方向,其中高可靠性的智能化决策控制是相关技术领域的关键所在。从车辆自动化控制技术的发展现状来看,各类决策控制系统各具特点,但如何在保障系统可靠性的同时有效提升计算效率并具备优良的泛化能力一直是该领域的研发目标。由此,本文在对不同自动控制方法深入分析的基础上,提出了一种基于模仿-强化学习的自动驾驶决策控制模型以有效解决上述问题。本文的主要工作内容包括:(1)基于深度确定性策略梯度(DDPG)的自动驾驶决策控制。为解决基于模型控制方法泛化性差的问题,本文采用免模型的DDPG算法作为该研究的基本算法框架,以在场景多变的自动驾驶任务中获得良好的的泛化性能。(2)基于WGAIL-DDPG的自动驾驶决策控制。将强化学习应用于自动驾驶控制任务时,智能体需要大量试错来探索最优策略,学习效率及试错危险性是需要重点考虑的问题。为此,本文基于生成对抗模仿-强化学习(WGAIL-DDPG)算法,通过在强化学习训练前期引入模仿学习环节,以有效缩小智能体的动作搜索空间,降低试错次数,从而使得算法的学习效率得以有效提升。(3)多车环境下的自动驾驶决策控制。目前多数基于强化学习的自动驾驶控制算法均基于理想单一车辆环境进行训练,导致所构建模型的工况适应能力不足。为解决该问题,本文基于所构建的WGAIL-DDPG决策控制模型,从奖励函数构造层面进行了针对性的设计。实验结果表明,基于设计的奖励函数,所训练出的自动驾驶决策模型可以实现目标车辆在多车干扰环境下的安全、平稳自动驾驶。(4)DDPG训练过程的参数优化。为了解决原始DDPG算法应用于自动驾驶控制任务时,模型容易陷入局部最优的问题,本文在DDPG训练过程中加入来自判别器监督信号,来防止无人车控制系统因陷入局部最优而采取不符合预期的车辆控制策略。本文的工作重点在于:针对DDPG算法训练时的盲目试错缺陷,在强化学习模块中通过合理引入模仿学习策略以提升模型的训练速度和稳定性;同时,考虑到奖励函数的设计对强化学习控制效果的影响,基于车辆自动驾驶的安全性、平稳性要求,结合多车应用环境对强化学习的奖励函数进行了针对性设计。
其他文献
随着信息物理系统在工业领域上的发展,给电力系统及其他工业系统提供了更为快速、便捷的操作模式,同时电力系统对信息系统依赖程度猛增,随之而来的安全问题也不容忽视,开展电
膨胀土在我国范围内分布广泛,由于其吸水膨胀失水收缩的特性在实际工程中造成巨大经济损失,故需针对膨胀土胀缩性进行改良,由于自然界膨胀土一般均为非饱和状态存在,经典土力学强度理论已经无法解释在干湿循环下膨胀土其强度及变形特性。将风化砂与膨胀土按一定比例混合制样并在不同初始干密度、基质吸力条件下的进行固结排水非饱和土三轴试验,研究一定掺砂率下非饱和膨胀土强度特性试验结果表明:(1)风化砂对膨胀土的胀缩性
介质阻挡放电(Dielectric Barrier Discharge,DBD)可以很容易地在大气压下产生低温等离子体,获得自由基、气体原子、激发态原子、离子等强化学活性粒子,并实现通常情况下难以进行的化学反应。主要大气污染物之一一氧化氮(NO)化学性质不活泼,难以通过常规化学手段去除。可以先通过DBD氧化法转化为化学性质活泼的NO_2,其去除便变得容易得多。DBD技术因能获得很高的NO转化率,且
Buck变换器因其高效性与输出电压的灵活性被广泛应用。随着移动便携式设备应用处理器性能的逐渐增强,对Buck变换器也提出了越来越高的要求。快速负载响应与高集成度逐渐成为
随着电网发展及灾害性气象条件的出现,输电线路舞动造成的跳闸、断线、倒塔等事故频有发生,严重影响线路安全。故开展线路舞动研究,系统地分析线路参数及环境因素对导线舞动
自上世纪90年代我国开始建设期货市场以来,先后经历了初始探索期、清理整顿期以及快速发展期。随着我国建设期货市场的经验不断丰富、相关制度逐渐完善,国内期货市场尤其是农产品期货市场发展迅猛。在农产品期货市场的众多品种中,饲料类期货始终占据着不可替代的地位。饲料类期货与我国畜牧产业紧密相关,豆粕、玉米等品种都是畜牧业重要的原材料。畜牧产业作为我国农业结构中的重要组成部分,其产出水平约占国内农业总产值的4
建立统一的市场经济体系同时实现绿色的经济增长是我国未来经济发展的重要目标。为此,我国先后对珠三角、长三角、京津冀、环渤海、粤港澳大湾区等不同范围的区域进行了战略部署,促进其协同发展。其中,党的十四大正式提出环渤海经济圈的概念,这标志着这一区域的协同发展正式上升为国家战略。环渤海经济圈依托其丰富的自然资源和优越的地理位置,成为我国北方的经济龙头。改革开放以来,这一区域的市场一体化和金融集聚不断加深,
多次重大地震灾害的结果表明,建筑物的倒塌是造成人员伤亡以及财产损失的最主要原因,在多层钢筋混凝土框架结构中,墙的破坏可能会引起更大的人员伤亡和财产损失。若采用配有
本试验旨在研究氨基乙酰丙酸(ALA)对母猪和仔猪的生产性能、血清生化和抗氧化指标、器官铁含量和铁代谢相关因子表达量的影响,揭示氨基乙酰丙酸的作用机理并为其在动物生产中应用提供理论依据。试验选取3-4胎次、妊娠期第85d“长白×大白”二元杂交母猪32头,随机分为4个处理组,每个处理8个重复。整个试验分为妊娠期和仔猪哺乳期两个阶段。在妊娠期阶段,对照组饲喂基础饲粮,试验组在基础饲粮中分别添加25 mg
目的本文将探讨内皮细胞特异性分子-1(endocan)、血清淀粉样蛋白A(Serum Amyloid A,SAA)、中性粒细胞与淋巴细胞比率(neutrophil-to-lymphocyte ratio,NLR)这三种炎症标志物