基于深度强化学习的车辆自动驾驶拟人决策

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：geolin1965

【摘要】

：

【作者】

：

万星

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2021年01期

【关键词】

：

自动驾驶拟人决策深度强化学习驾驶风格奖励函数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自动驾驶是车辆工程技术发展的重大变革,其在有效提高道路安全性的同时,对于缓解交通拥堵、减少环境污染具有重要作用。从自动驾驶决策系统的功能要求出发,其一方面应在保证行车安全的同时有效提高通行效率;另一方面系统的决策输出应满足不同驾驶人特性的多样化需求,以提升自动驾驶系统的实际应用体验。目前,相对于自动驾驶车辆的行驶安全决策和通行效率研究,由于驾驶特性表征模式所具有的高维性、随机性等复杂属性特征,其为决策系统的应用体验性能提升带来了很大困难。基于此,本文以车辆自动驾驶决策为研究目标,在对驾驶人个体驾驶风格差异性分析的基础上,基于GAIL-DDPG提出了一种车辆自动驾驶拟人决策模型,并对所构建的模型进行了有效性验证。主要研究内容包括:（1）驾驶人的驾驶风格特性分析及特征数据库构建基于本文研究目的,影响驾驶人驾驶风格的特征属性分析及定量表征是进行拟人决策研究的基本要求。在相同交通环境下,不同的驾驶人决策行为将导致车辆的运行状态具有较大差异,这为通过车辆相关运动状态参数进行驾驶风格界定和表征提供了可行途径。基于此,本文在对驾驶人驾驶风格评价方法详细分析的基础上,结合试验数据对驾驶人驾驶风格进行了合理的量化及表征,构建了用于拟人决策模型构建的特征数据集。（2）基于人工势场理论的强化学习奖励函数设计基本强化学习模型的构建是本文进行自动驾驶拟人决策的基础。其中,奖励函数需要根据车辆的运行特性要求进行针对性的设计。基于此,鉴于人工势场理论在车辆在线路径规划中的成功应用,本文在对车辆行驶安全性、效率和平顺性深入分析的基础上,基于人工势场理论提出了一种以智能体为中心的车辆运行势场函数设计方法,进而结合试验数据对所构建的强化学习模型进行了训练和实证。（3）模仿-强化学习训练模式转移策略基于专家数据的模仿学习可有效提升强化学习模型的训练效率,如何实现模仿学习到强化学习的平稳过渡是本文基于GAIL-DDPG模型构建的关键之一。其中,训练模式的转移一方面应考虑最大化模仿专家数据分布,另一方面应兼顾强化学习要求保证智能体决策不偏离专家数据分布并探索更高级决策行为。基于此,本文在对多种转移函数特性深入分析的基础上,提出了一种基于Sigmoid函数的训练模式转移策略,从而实现了模仿学习向强化学习的平稳过渡。（4）自动驾驶拟人强化学习模型构建基于以上构建的GAIL-DDPG模型,如何将驾驶人的个体特性引入是所构建模型实现拟人化的关键。基于此,本文在驾驶人驾驶风格类型可靠辨识的基础上,通过车辆运行势场函数权重的动态调整实现了不同驾驶人特性的合理引入,进而建立了一种考虑驾驶人个体特性的深度强化学习自动驾驶拟人决策模型。围绕车辆自动驾驶决策问题,本研究针对驾驶人特性分类、拟人决策模型构建等关键问题开展了相关研究工作。所做工作突破的重点在于:（1）针对强化学习智能体训练效率提升问题,本文通过模仿学习的引入及合理的模型训练转移策略设计实现了强化学习模型前期训练探索效率的有效提升;（2）针对模型的拟人化决策问题,在车辆行驶势场函数构建的基础上,结合不同驾驶人的驾驶风格特性对其权重实施动态调整,进而构建了完整的自动驾驶拟人强化学习决策模型。

其他文献

基于驾驶风格的高速公路换道决策研究

学位

基于驾驶员行为学习的自动驾驶车辆换道决策与轨迹规划研究

学位

新文科背景下国际商务课程教学改革探讨

国际商务是一个独立的、跨学科的整合学科,在我国呈现出快速发展的态势。"新文科"建设要求加强课程改革与创新,对国际商务课程定位的探讨是优化国际商务课程内容体系、进行课程建设、培养适应社会需要的国际商务人才的重要前提。在辨析国际商务课程定位的基础上,分析了理论基础→环境→战略→运营这一教学主线下国际商务课程教学内容和体系,并提出了新文科背景下国际商务课程教学方案的建议,用统一的框架来组织和阐释教学内容

期刊

新文科国际商务教学改革

基于DDPG算法的无人驾驶决策算法研究

学位

桥阴空间文创商业利用及其景观改造策略研究——以成都市人南高架桥为例

城市高架桥下空间大量闲置和低效利用的问题已开始引起人们的重视。桥阴空间融入文创型特色商业利用,为激活桥下公共空间活力,提升复合经济提供了新的可能。本文首先对国内外高架桥下商业利用相关研究进行文献综述,分析提出文创商业利用模式的可行性,再选取我国成都人南高架桥下场地进行实践性探索应用,针对空间特质从"场所空间""场所氛围"以及"附属环境"层面提出相应策略,以期实现桥下空间文创商业化及其景观改造的探索

会议

城市高架桥桥阴空间文创商业设计实践景观提升

积极缝补:武汉城市段高铁高架桥下空间利用调研及思考

时速高达350km的高速铁路兴起时间虽短,但对我国生产、生活、生态环境均产生了深远影响。面对保证高铁高速、安全运行而建设的大量高架桥,其城市段的桥下空间是否可以在保证桥体安全的基本原则上,进行桥下空间与周围用地整合利用,尽量修补高铁对城市空间的"割裂"和"孤立",是本文关注的重点。文章先梳理国内外高铁桥下空间利用情况,再对武汉城市段高铁桥下空间情况开展调研,并针对东湖花木城的商业利用与大道物流中心

会议

城市设计高架桥下空间利用空间织补高速铁路安全利用

基于分段学习模型的自动驾驶行为决策算法研究

在具有车道线的特定自动驾驶场景中，针对目前端到端的行为决策算法直接输入原始图像进行决策导致网络模型迁移性差、预测精度欠佳、泛化能力不足等问题，本文提出了一种基于分段学习模型的车辆自动驾驶行为决策算法。首先，基于GoogLeNet建立了一种端到端的车道线检测网络模型，并引入车道中心线作为决策重要线索提高算法的迁移能力，同时利用YOLOv3目标检测模型对本车道内前方最近障碍物进行位置检测，而后，经几何

期刊

交通工程驾驶行为决策分段学习模型深度神经网络车道线检测目标检测

基于元强化学习的无人驾驶车辆行为决策研究

智能汽车作为智能交通系统重要组成部分之一,其有助于缓解交通拥堵、减少交通事故等,是当前车辆工程领域研究的热点。在智能汽车搭载的各项技术中,行为决策技术是汽车实现无人驾驶的关键之一,对于车辆的行驶安全性具有重要作用。在各类行为决策方法中,基于元强化学习的行为决策方法具有学习效率高、鲁棒性好等优点,具有重要的研究价值。目前用于无人驾驶车辆行为决策的元强化学习算法需要计算损失函数的二阶导数,计算量大。针

学位

无人驾驶近端策略优化元学习多智能体强化学习行为决策

历史·成就·经验：中国共产党百年“三农”工作

"三农"工作是中国共产党的一项重要工作,事关革命、建设和改革发展的大局。一百年来,中国共产党领导的"三农"工作经历了革命时期成功实践、建设时期曲折发展、改革时期新进展、新时代全新实践等历史阶段。一百年来,党的"三农"工作成就卓著,积累了丰富的经验,为新时代加强党对"三农"工作的全面领导、全面振兴乡村提供历史借鉴。

期刊

中国共产党“三农”“三农”工作百年历程

改进的综合水质标识指数法对湟水河红古段的水质时空特征分析

基于水质连续实测,根据湟水河水质特征对综合水质标识指数法进行改进优化,开展湟水河红古段水质现状及特征评价,并讨论了综合水质标识指数法对湟水河红古段水质评价的适用性。结果表明,经调整改进后,研究河段综合水质标识指数值在丰水期、枯水期分别为2.310、2.300,综合水质属Ⅱ类,且利用该方法得到的水质评价结论可以更准确直观地反映湟水河红古段不同区域、不同时段的水质特征及差异,适合优先作为湟水河流域的水

期刊

综合水质标识指数湟水河红古段水质评价

基于深度强化学习的车辆自动驾驶拟人决策

与本文相关的学术论文