多智能体强化学习在城市交通信号控制中的研究与应用

来源 :兰州大学 | 被引量 : 1次 | 上传用户:s334794681
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
城市交通拥堵已经对全球经济、环境造成了严重的影响。提升城市交通信号控制效率,是缓解城市交通拥堵相对“高效、低成本”方法之一。因为城市交通环境具有复杂性、不确定性,其内部运行的机理无法精确地进行数学分析建模,所以城市交通信号控制适合采用“数据驱动、自学习、无模型”的强化学习方法(Reinforcement Learning,RL)进行计算和控制。研究人员利用强化学习模型和深度强化学习模型(Deep Reinforcement Learning,DRL)进行了大量的城市交通信号控制研究工作。近些年,随着城市交通信号控制的研究从单个路口的局部优化发展到多个路口的全局优化,基于多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)的方法成为主要的方法模型之一,并在现有城市交通仿真环境中取得了较好的结果。但是,现有的研究仍然存在以下不足:(1)现有的交通仿真环境无法模拟更加接近真实的交通环境,不能完全体现真实城市交通的运行状况,导致城市交通信号仿真控制效果和实际路测效果具有一定差距;(2)针对城市多路口交通信号控制优化MARL算法模型本身的控制效果并不是非常理想,博弈论、通信理论和MARL的组合研究不够深入,算法本身仍具备提升空间;(3)对于城市交信号控制MARL算法在城市多个路口的工业级部署研究还不足。针对以上问题,本文开展了细致的研究并取得如下成果:(1)建立城市多交叉路口交通流量时间序列文本数据集(Multi-Road Traffic Dataset,MTD),构建城市仿真环境(Urban Simulation Environment,USE),实现接近真实路况的多个交叉路口运行情况仿真。(2)促进MARL理论、算法和智能交通应用的深度结合,拓展MARL的应用范围,通过结合纳什均衡理论和通信理论优化城市交通信号控制MARL算法,提出基于纳什均衡的优势行动者评论家算法(Nash-Advantage Actor-Critic,Nash-A2C)、异步优势行动者评论家算法((Nash-Asynchronous Advantage Actor-Critic,Nash-A3C)和多智能体自动通信强化学习算法(Multi-Agent Auto Communication,MAAC)算法;(3)针对MARL算法在城市多个路口的工业级部署研究不足,通过预估交通信号控制智能体的网络传输时延,提出基于云计算、雾计算、边缘计算的混合计算架构的Mixed-MARL算法;(4)综合城市仿真环境、混合计算架构、MARL城市交通信号控制算法,提出城市交通信号控制的综合应用计算框架(General City Traffic Computing System,GCTCS),并组合纳什均衡、多智能体通信、混合计算架构优势,提出组合算法General-MARL。本文构建的城市仿真环境USE使用动态车流量预测的方式,实现了比传统仿真环境更加接近真实情况的效果;提出MARL优化算法(Nash-A2C、NashA3C、MAAC、Mixed-MARL、General-MARL)在仿真环境USE中的实验结果均优于传统基线算法。其中,组合纳什均衡、多智能体通信、混合计算架构的General-MARL算法,在缓解多路口拥堵程度和降低网络时延上,取得了一定程度的成果(超过基线方法23.2%,通信时延降低11.7%)。
其他文献
西北地区畜牧业发展迅速导致畜牧废弃物的处理是一大难题。探究了温度和pH对西北畜牧废弃物厌氧消化产甲烷的影响,并从挥发性有机酸(VFA),溶解性COD的变化等角度揭示了温度和pH
全球化是当今时代的主要特征,是一股不可逆转的时代潮流。我国现在正处在社会主义市场经济的建立和完善的过程当中,工业化的任务还没有完成,现在又面临着信息社会和知识经济的挑
期刊
农村青年教师的心理健康不仅关系到自身的发展,还对学生的学习和成长具有至关重要的作用。因此,青年教师要不断学习和深造心理学知识,规范自己的言行举止,在日常生活和工作中
益气固肾汤治疗乳糜尿50例李玉杰胡建华白其昌(安徽省阜阳市第一人民医院236000)关键词:益气固肾汤;乳糜尿;尿浊乳糜尿属中医尿浊范畴,目前中西医对此症治疗效果尚不理想。笔者1980~1995年以自拟益
CO氧化和水煤气变换反应在消除环境以及工业生产中残余的CO方面具有重要的应用价值。对于CO氧化反应,研究负载型金催化剂高性能的来源及构效关系一直以来都是研究者关注的热
随着我国北斗卫星导航系统的不断完善,北斗B1C信号作为北斗卫星播发的新型民用卫星信号,已经正式为全球用户提供导航、定位等服务。卫星信号的跟踪是信号接收设备对卫星信号同步过程中的关键技术,直接影响接收设备提取导航数据的准确性,决定接收设备的整体性能。因此,北斗B1C信号跟踪算法的研究和实现具有重要的意义。本文基于国内外Binary Offset Carrier(BOC)与Multiplexed Bi