基于环境建模与强化学习的自动驾驶方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:siyang2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能驾驶是目前一个热门的研究方向。L4级别的自动驾驶车辆难以实现大规模应用,主要原因之一是目前的基于场景驱动与基于单纯数据驱动的决策系统无法应对复杂、多变的驾驶环境。为研究汽车的智能决策与控制技术,本文对人工势能场进行了改进和扩展,提出了包含三个矢量场与一个标量场的适用于交通环境的“统一场模型”,在此基础上,提出了一种强化学习与统一场模型相结合的自动驾驶方法。论文首先分析了传统的人工势场法的应用范围及其不足之处,同时通过对交通环境的特征、组成及需求进行了分析。通过解构人工势场法的优势以及交通环境中的本质,分析了场与交通环境的相似之处,进一步了提出了根据交通环境的组成部分对其进行有针对性的细分式的建模,以尽可能精确地、完整的反映交通环境的各类属性,并在此基础上采用多目标优化方法,解决交通环境中的需求问题的基本思路。然后论文从场论的思想出发,以减少交通场景的场景依赖度为主要目的,提出了适用于交通环境的统一场模型。该模型包括提供主车前进期望的“动力场”模型、描述交通环境中的各类环境因素的“环境场”模型以及描述交通环境中各智能体的“智体场”模型。在建立模型的过程中,对影响交通环境的因素逐一进行分析,并用模型和模型参数表示。同时,提出了统一场模型中模型参数的标定方法,并根据文献中引用的实际道路信息与交通数据对部分模型参数进行了标定方法说明与标定示例。最后进一步的探究了统一场模型的应用范围和应用方法,针对交通环境中依赖场景库无法完美解决的复杂场景下的应用,提出了一种结合统一场模型与强化学习的自动驾驶方法应用为示例,并搭建测试平台与联合仿真平台进行验证。验证说明,该自动驾驶方法可以完成简单提前变道场景、标准测试场景、人车交互环境、随机环境场景等各类交通场景,并在常见交通场景下与无模型的强化学习方法、传统人工势场法及人类驾驶员进行了对比验证。另外,还搭建了硬件在环仿真进一步验证了算法在接近实际使用工控时的可行性与有效性。与现有的基于场论扩展的势场模型相比,本文贡献于建立了模型更精确与扩展性更强的统一场模型,并根据实际需求结合与改进了强化学习算法加以应用,为在复杂交通环境下的L4级别的自动驾驶方案提供了一种可探讨的理论应用及其相关的技术路线。
其他文献
本文对集成式电液制动系统(I-EHB)的重要部件和结构进行了设计。首先对简化后的线性系统进行建模,推导出不考虑摩擦等非线性扰动下系统的传递函数。其次搭建I-EHB系统试验台架,利用Stribeck摩擦模型对系统静、动摩擦阶段的摩擦力矩参数进行辨识,以得到更为准确的摩擦模型。然后,基于摩擦干扰的I-EHB系统模型,设计了压力-速度-电流环的三回路串级PID控制器,并加入基于系统模型的前馈控制器,随后
随着老龄化程度的不断加深,老年人的养老和就医成为了一大难题。老年人相比起其他年龄段的人患病风险更高,也因此受到二次损伤的概率也变大。病症带来了一系列的问题,偏瘫、肌无力等都是常见的情况。康复训练作为治疗此类问题的主要方式,成为人们日益关注的重心。但由于医疗资源紧张,价格昂贵,国内对于康复医疗资源的普及度不够,很多老年人的病症并不能得到有效的治疗。同时,康复训练过程耗时长,见效慢,更是使老年人无法坚
当今,由于石油化工材料对环境的威胁以及地球石油化石资源的加速消耗,生物基可再生材料的研发和扩展已经是国内外学者研究的重点课题,以聚乳酸(PLA)和天然橡胶(NR)等为代表的生物基可再生材料的改性和补强成为生物基可再生材料研究的主要内容,如何使生物基可再生材料的性能和工艺能够适应现代工业与科技的应用条件一直是研究者要面对的重大难题。自愈合改性是一种可持续性强,资源友好性高的改性方法,自愈合性能赋予材
淀粉-脂质复合物是一类由直链淀粉与脂质通过疏水相互作用形成的V型复合物,属于5型抗性淀粉(type 5 resistant starch,RS5),对人体健康具有重要意义。RS5能够降低肠道p H值、增加短链脂肪酸(short-chain fatty acids,SCFAs)产量、促进肠道有益菌增长并减少有害菌的数量等。已有文献证明了抗性淀粉(resistant starch,RS)在体内、体外对
钢桁梁柔性拱桥是一种同时拥有较大跨越能力和较强结构刚度的桥梁结构形式,克服了大跨度桥梁刚度不足的缺点,受到了工程界的重视,但目前针对钢桁梁柔性拱桥的施工控制方法研究较少。本文以世界最大跨度铁路连续钢桁梁柔性拱桥施工为工程背景,对钢桁梁悬臂拼装施工控制技术、钢桁梁顶落梁合龙施工控制技术和柔性拱卧拼与提升控制技术进行了研究,主要工作如下:(1)进行了钢桁梁悬臂拼装受力分析,计算了钢桁梁无应力线形和杆件
城中村改造是一个涉及多方主体参与的博弈过程,其推进存在一定的困难,关键是其利益难以达到均衡。本文运用逆推演绎法理论,通过博弈达到均衡状态来反推城中村改造中各主体的利益博弈,建立博弈模型,确定各方利益主体的博弈策略及博弈收益,发现在政府提供政策、村委合作、村民支持、开发商参与城中村改造等四种条件下,得到博弈均衡结果。即政府提供政策、村委合作、村民支持、开发商参与城中村改造;政府提供政策、村委合作、村
毛细血管在人体中分布广泛,具有参与血液运输、物质交换和免疫调节等重要的生理功能。在体外模拟毛细血管结构和功能对我们深入了解毛细血管的功用及构建人工组织和器官起着举足轻重的作用。目前在组织工程领域,中空水凝胶纤维被公认较为适合用于模拟天然毛细血管。在众多中空水凝胶纤维制备方法中,同轴微流控技术是一种较为常见的方法。然而,传统的基于光刻技术的制备方法存在着时间冗长,操作复杂等缺点,不利于制备具有三维结
烟梗是烟叶中粗叶脉部分,是烟草加工中重要的副产物。我国每年约有数十万吨的烟梗没有被充分利用而废弃,造成了资源的浪费和环境污染。多孔炭因具有高比表面积、丰富孔道、良好的热稳定性且无毒性等特点,作为吸附剂在水处理、精油和药物包封缓释等方面具有广泛的应用。以烟梗为原料制备多孔炭吸附材料,是实现其高值化利用的有效途径,具有重要的研究意义和应用价值。然而,传统单组分活化剂所制备的多孔炭以微孔为主,更为重要的
伴随科技工业和国民经济的不断进步,现代汽车保有量和其产生的数据量呈现爆炸性增长,向原有通信系统中引入具有通信需求的车辆节点后将造成车辆之间传输冲突率大幅上升、信道接入延迟时间持续增加、信道接入竞争强度增高、通信资源短缺等问题。通过将设备到设备(Device-to-Device,D2D)技术引入车辆节点之间(Vehicle to Vehicle,V2V)通信中可以使得相邻的车辆用户(Vehicle
目标检测指的是通过算法从图片或视频中的找出所有感兴趣的目标,并确定他们的位置和类别,它是诸多计算机视觉任务需要解决的最基础的问题之一,具有重要的研究意义及实用价值。随着人工智能技术和硬件水平的迅速发展,越来越多的研究者将深度学习技术应用在了目标检测领域,以R-CNN系列和YOLO系列为代表的经典算法在检测速度和精度上有了巨大的提升,从此,基于深度学习的方法在目标检测领域占据了主流地位。然而,将这种