交互协调强化学习下的城市交通信号配时决策

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:guofy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对应用传统强化学习进行城市自适应交通信号配时决策时存在维数灾难和缺乏协调机制等问题,提出引入交互协调机制的强化学习算法。以车均延误为性能指标设计了针对城市交通信号配时决策的独立Q-强化学习算法。在此基础上,通过引入直接交互机制对独立强化学习算法进行了延伸,即相邻交叉口交通信号控制agent间直接交换配时动作和交互点值。通过仿真实验分析表明,引入交互协调机制的强化学习的控制效果明显优于独立强化学习算法,协调更有效,并且其学习算法具有较好的收敛性能,交互点值趋向稳定。
其他文献
石墨炸弹是近年来发展起来的一种对供电系统有强大破坏作用的武器。对石墨炸弹发展过程、破坏机理及主要特征进行了总结,并从破坏(降低)石墨纤维导电性的思路出发,提出了具体
江苏省新沂市时集镇读者赵某来电:我在某公司工作,在合同期未履行完之前向公司提出辞职,公司同意我离职,但是却因种种借口一直未为我办理档案和社会保险关系转移手续,以至于新单位
目的:已有的研究表明青少年的情绪调节和心理困扰之间显著相关,但是同时探究影响青少年情绪调节和心理困扰的内在因素和外在因素的研究相对较少。本研究考察了青少年内在的正
民主选举制度并不必然带来村庄选举的强竞争。实地调研发现,村庄选举的弱竞争构成了中国绝大部分村庄选举的主导样态。城市化背景下,村庄的去精英化、村庄社会结构的碎片化、
<正>1.绪论1.1网络大电影的概念网络大电影即是指1小时以上,拥有完整电影结构以及容量、能符合国家相应的政策法规制度、通过在互联网平台上进行传播的视频等产品,一些人称之
为促进安全文化建设,提升全民安全文化素质,根据"互联网+"的含义,从安全文化建设视角提出"互联网+安全文化"的定义。根据信息传播的"六度传播"理论,构建六度安全文化传播模型
近日,一位江苏省无锡市张女士反应,接到了"淘宝客服"的电话,称所购商品有质量问题可以申请退款,而依言操作后,不但没有得到退款,反而在网贷平台上欠下了2万元债务。原来,这是网
睡觉对身体的重要性人人皆知,但大多数人只注重睡觉时间、姿势等因素,忽视了睡觉方位、室内环境等可能影响睡眠质量或导致疾病的隐患。国外曾做过一项有趣的研究,睡在床的哪
本文认为国际商务合同是一种具有法律效力的文件,属于特殊文本,准确性和严谨性是其行文基本风格,本文从词语使用的角度诸如专业词、古体词、shall的使用等探讨了国际商务合同
对于多数人来说,烧烤是一种难以拒绝的美味,其虽诱人,但营养学家提醒,美味与风险时常并存。经过高温烤制的食物不仅营养损失增多,且会产生多种有害物。因此,吃烧烤时要注意以下几点