论文部分内容阅读
城市交通拥堵已经对全球经济、环境造成了严重的影响。提升城市交通信号控制效率,是缓解城市交通拥堵相对“高效、低成本”方法之一。因为城市交通环境具有复杂性、不确定性,其内部运行的机理无法精确地进行数学分析建模,所以城市交通信号控制适合采用“数据驱动、自学习、无模型”的强化学习方法(Reinforcement Learning,RL)进行计算和控制。研究人员利用强化学习模型和深度强化学习模型(Deep Reinforcement Learning,DRL)进行了大量的城市交通信号控制研究工作。近些年,随着城市交通信号控制的研究从单个路口的局部优化发展到多个路口的全局优化,基于多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)的方法成为主要的方法模型之一,并在现有城市交通仿真环境中取得了较好的结果。但是,现有的研究仍然存在以下不足:(1)现有的交通仿真环境无法模拟更加接近真实的交通环境,不能完全体现真实城市交通的运行状况,导致城市交通信号仿真控制效果和实际路测效果具有一定差距;(2)针对城市多路口交通信号控制优化MARL算法模型本身的控制效果并不是非常理想,博弈论、通信理论和MARL的组合研究不够深入,算法本身仍具备提升空间;(3)对于城市交信号控制MARL算法在城市多个路口的工业级部署研究还不足。针对以上问题,本文开展了细致的研究并取得如下成果:(1)建立城市多交叉路口交通流量时间序列文本数据集(Multi-Road Traffic Dataset,MTD),构建城市仿真环境(Urban Simulation Environment,USE),实现接近真实路况的多个交叉路口运行情况仿真。(2)促进MARL理论、算法和智能交通应用的深度结合,拓展MARL的应用范围,通过结合纳什均衡理论和通信理论优化城市交通信号控制MARL算法,提出基于纳什均衡的优势行动者评论家算法(Nash-Advantage Actor-Critic,Nash-A2C)、异步优势行动者评论家算法((Nash-Asynchronous Advantage Actor-Critic,Nash-A3C)和多智能体自动通信强化学习算法(Multi-Agent Auto Communication,MAAC)算法;(3)针对MARL算法在城市多个路口的工业级部署研究不足,通过预估交通信号控制智能体的网络传输时延,提出基于云计算、雾计算、边缘计算的混合计算架构的Mixed-MARL算法;(4)综合城市仿真环境、混合计算架构、MARL城市交通信号控制算法,提出城市交通信号控制的综合应用计算框架(General City Traffic Computing System,GCTCS),并组合纳什均衡、多智能体通信、混合计算架构优势,提出组合算法General-MARL。本文构建的城市仿真环境USE使用动态车流量预测的方式,实现了比传统仿真环境更加接近真实情况的效果;提出MARL优化算法(Nash-A2C、NashA3C、MAAC、Mixed-MARL、General-MARL)在仿真环境USE中的实验结果均优于传统基线算法。其中,组合纳什均衡、多智能体通信、混合计算架构的General-MARL算法,在缓解多路口拥堵程度和降低网络时延上,取得了一定程度的成果(超过基线方法23.2%,通信时延降低11.7%)。