端对端无人驾驶决策控制均衡训练方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：qipiaolang

【摘要】

：

【作者】

：

袁伟

【出处】

：

上海交通大学

【发表日期】

：

2020年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

无人驾驶车辆是全球汽车产业发展的重要战略方向,是我国实现交通强国的关键技术之一。目前主流的无人驾驶系统明确划分了感知、定位、决策、规划、控制等环节的任务边界,在结构上削减了不同环节之间的耦合,该系统在面对大量动态且意图具有不确定性的交通参与者时难以及时做出正确反应,仅对局部环节进行优化难以从根本上保障系统的安全性。因此,现有架构已成为无人驾驶车辆实现规模化应用的主要瓶颈之一。近年来,越来越多的研究者将注意力转向基于端对端学习的无人驾驶系统架构,该系统架构通过神经网络直接将传感器的原始数据映射到车辆的决策和控制,保护了模块间的耦合性,允许数据自行建立隐性关联,不仅削弱了局部任务中误差对决策和控制结果的影响,还减少了由于任务分工过细导致的计算冗余。然而,由于训练数据的学习价值或标签的分布不平衡,端对端无人驾驶存在严重的模型训练不平衡问题。因此,本文围绕端对端学习中的不平衡训练问题展开研究,针对车辆决策模型训练中的训练样本采样不平衡问题,研究了基于前采样平衡的均衡训练方法;针对转向估计和驾驶模型迁移中的数据分布不平衡问题,研究了基于后梯度平衡的均衡训练方法。主要的研究成果如下:（1）针对决策模型训练中的记忆采样样本价值不平衡问题,本文提出了一种基于多奖惩优先级采样的均衡训练方法。深度强化学习模型能有效搜索到最优的车辆决策结果,特别是深度Q学习这种经典的方法。但是此类方法面临着学习的记忆样本价值不平衡问题,模型在训练时采样了大量学习价值低的样本,难以学习到高价值样本。本文基于优先级采样机制,设计出一种均衡的训练形式,实现对高低价值样本的编码和优先采样,同时基于多奖惩函数分解优化了函数逼近器,极大发挥高价值样本的作用,从而提升模型训练效果。通过高速公路模拟器的训练和测试实验证明,本文提出的方法提升了无人驾驶车辆的加减速、左右换道的决策效果。（2）针对转向估计模型中的训练数据标签分布不平衡问题,本文提出了一种基于三因子模型的代价敏感均衡损失函数。正常的驾驶行为中,大转向的驾驶行为较少,直道驾驶行为远远多于弯道驾驶行为。因此,数据集表现出非常不平衡的现象,转向分布整体呈现中间高两边低的分布现象。此类数据集训练的模型在直道上转向估计较好,弯道估计较差。本文设计的三因子模型直接作用于损失函数,通过调试三因子参数放大分布较少的转向数据的损失贡献,而相对保持转向分布较多的转向数据的损失贡献,从而实现模型的均衡训练。实验证明,本文方法在不同的驾驶数据集和模型上均提升了端对端转向估计精度。（3）针对三因子转向估计模型中的手动调参问题,本文进一步提出了一种自适应梯度对冲的代价敏感均衡损失函数,进一步优化了端对端无人驾驶转向估计模型的均衡训练。三因子模型中需要对三项参数因子进行手动调参,降低了该方法的普适性。为了降低调参难度,本文进一步分析数据集分布规律,基于其分布规律设计了自适应梯度对冲因子,从而构建自适应均衡训练代价敏感损失函数。实验证明,本文提出的自适应梯度对冲方法进一步提升了转向估计模型的估计精度。（4）针对端对端驾驶模型虚实迁移任务中的训练数据标签分布不平衡问题,本文提出了一种代价敏感均衡对抗学习模型,在实现端对端转向估计器的均衡训练情况下,实现模拟器中训练的驾驶模型迁移到真实的环境中。传统的域迁移方法均需要中间训练监督标签,或者进行二阶段的训练,本文提出了一种一阶段的训练框架,可以直接训练出驾驶域迁移模型,针对驾驶数据的不平衡特征引入前述的代价敏感均衡损失函数,对冲梯度不平衡现象。实验证明,在虚拟驾驶数据和不同的真实驾驶数据集间,本文提出的方法能在均衡训练条件下驾驶模型的虚实迁移。综上,本文建立了端对端无人驾驶决策控制领域常用的均衡训练方法,集中在前采样平衡方式和后梯度平衡方式,并在无人驾驶决策、无人驾驶转向估计和虚实驾驶模型迁移领域进行了验证与应用。

其他文献

STAT3基因协同AR/CCRK信号通路与慢性HBV感染疾病进展及性别间差异的关系

第一部分 STAT3协同AR/CCRK信号通路与慢性HBV感染疾病进展及性别间的差异相关目的:探索AR/CCRK信号通路及其调控因子STAT3与慢性HBV感染疾病进展及性别间差异的关系,为将来能否将STAT3和AR信号通路作为阻止慢性HBV感染疾病进展的潜在联合治疗新靶点提供理论依据。方法:通过Western blot对处于不同炎症和肝纤维化阶段的慢性HBV感染者及非HBV感染对照者肝组织AR、C

学位

基于机器学习的聚变堆关键材料钨和铁界面处缺陷性质研究

在未来聚变反应堆的关键部件中,钨和低活化钢因其优异的性能被认为是最有前途的面向等离子体材料和结构材料。然而在聚变堆严苛的服役环境中材料会不断地受到高能粒子辐照,其内部将产生大量的空位和间隙等点缺陷,它们的进一步迁移、聚集和演化会引起材料宏观性能的显著退化,严重影响聚变堆的服役安全。已有研究表明,材料中晶界附近的点缺陷形成能相较块体更低,能够促进辐照缺陷的偏聚吸收与自修复过程,提升材料的抗辐照损伤性

学位

40万人数据显示：少吃肉，少得癌

报纸

中晚全新世中国陆架典型泥质区沉积过程与机制研究

中国陆架边缘海拥有大量泥质区,其沉积物具有物源广泛、沉积速率高、环境信息丰富、气候变化敏感等特点,是全球气候与环境变化的天然记录器。中国陆架泥质区形成于全新世高海平面时期以来,处于东亚季风的控制范围,其物源主要是长江和黄河等河流的入海泥沙,由暖流和沿岸流构成的环流体系影响着沉积物的输运和沉积过程。目前对于中国东部陆架泥质区的研究,普遍认为存在“夏储冬输”的沉积格局,由此衍生出两个重要的科学问题:1

学位

高塑性Mg-Zn-Gd合金静态再结晶行为及晶粒取向和织构演变机理

织构是影响镁合金板型材室温力学性能的重要组织特征之一。AZ31等传统镁合金在热加工变形后会形成强基面织构,导致其室温塑性和成形性能差;而稀土镁合金由于微量稀土元素的作用,织构出现非基面化,从而呈现优异的室温塑性和成形性能。虽然通过稀土元素调控织构获得了很好的力学性能改善效果,但稀土镁合金的非基面织构形成机理仍不清楚。非基面织构是再结晶织构,形成于再结晶过程,包括动态再结晶（DRX）和静态再结晶（S

学位

相转化法制备聚合物滤膜的大数据研究

聚合物分离膜以其低能耗、易生产等优点,广泛用于污水处理、海水淡化和生活净水等。商用聚合物分离膜主要通过相转化法制备生产,制膜过程中复杂的聚合物特性、溶剂和添加剂配方以及制备工艺参数都会显著地影响膜的结构和综合性能。尽管已有巨大的应用市场,聚合物水处理膜的分离机理以及先进分离膜的制备策略仍不清晰。因此,探索组成和工艺参数对分离膜结构和性能的定量影响规律,明晰相转化法成膜机理中聚合物和溶剂的相互作用贡

学位

基于电磁矢量天线阵列的多极化电波测量技术及应用

目前,日益增加的通信流量需求推动着第六代移动通信（6th Generation Mobile Communications,6G）系统朝着高容量、高频段、高带宽的方向发展,电磁波极化特性带来的通信容量的增益近年来也备受关注。因此,毫米波频段的宽带多极化信道特性的研究对6G无线通信系统的研发和部署至关重要。同时,宽带毫米波多极化信道特性的建模和测量离不开相应的信道多参数估计方法。特别是针对信道极化参

学位

低维钙钛矿及有机发光二极管的光电性质的研究

发光二极管（Light emitting diode）或电致发光器件（Light emitting device）具有亮度高、色域广、功耗低、寿命长和环保等诸多出色的性能,已被广泛应用于显示和照明领域,成为光电产业中最具竞争力的产品之一。随着LED产业的发展以及新时代对LED显示的更高要求,科研工作者对新型电致发光材料的探索也逐步加强,其中有机分子和新型低维卤化物钙钛矿由于具有诸多优点而备受关注。

学位

青稞生鲜面品质劣变及多酚类化合物生物活性作用机制研究

青稞生鲜面具有优良质构、新鲜风味、良好口感及较高营养价值等优点,但保质期短,严重影响了其规模化生产和大众消费,且青稞中多酚类化合物生物活性及其作用机制仍待阐明。本论文研究了青稞生鲜面贮藏过程中品质劣变规律,探究了微波杀菌结合抑菌剂复配对青稞生鲜面货架期和品质的影响,揭示了青稞生鲜面多酚类化合物抗氧化活性的变化规律,阐明了青稞多酚类化合物抑制α-葡萄糖苷酶（α-Glucosidase）和二肽基肽酶-

学位

表观遗传调控在糖尿病肾病肾小管损伤中的作用研究

目的糖尿病肾病（Diabetic nephropathy,DN）是导致终末期肾脏病（End-stage kidney disease,ESKD）的首要因素。尽管肾小球的滤过屏障受损是其主要特征,但肾小管的功能异常在DN发生发展中同样起着重要的作用。然而,在糖尿病状态下,肾小管参与决定DN进展的机制及驱动肾小管发生表型变化的关键分子,目前并不清楚。表观遗传学特征从底层反应基因组与体内微环境的互作,有

学位

端对端无人驾驶决策控制均衡训练方法研究

与本文相关的学术论文