基于强化学习和策略蒸馏的高速公路突发事件现场处置经验复用和应急决策方法研究

来源 :长安大学 | 被引量 : 0次 | 上传用户:roc59516663
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在高速公路的日常管理中,过往交通事故的现场处置过程常被道路监控视频录像或文字性事故报告记录下来,大量的应急处置经验蕴藏于这些记录中,复用这些经验可以有效提升突发事件现场应急处置的决策效果。因此,为了复用过往事故的应急处置经验,本文提出了一种基于知识迁移的经验复用方法,借助多智能体强化学习算法和策略蒸馏方法来对高速公路突发事件的现场应急处置经验进行迁移和复用。首先,本文利用马尔可夫决策过程建立了一个任务级别可以模拟高速公路突发事件现场情景的演化和决策过程的数学模型,该模型具有广泛的适用性,可以模拟不同类型的突发事件的现场处置过程。之后,为了实现应急经验的复用,一种名为基于策略蒸馏的多智能体深度确定性策略梯度(Policy Distillated Multi-Agent Deep Deterministic Policy Gradient,PD-MADDPG)算法的知识迁移方法被提出,该方法可以将多个过往突发事件的应急经验迁移到当前事故的应急处置当中去,进而实现快速的应急决策和最优现场处置。最后,所提算法的性能在从陕西省高速公路管理局获取的高速公路实际交通事故的实例分析中得到了评估和验证,除了比各种典型决策方法获得更好的应急决策性能外,实验结果显示,具有迁移知识的智能体比没有经验复用的智能体的平均奖励在五则研究案例中分别高出了65.22%、11.37%、9.23%、7.76%和1.71%,且基于经验复用的应急处置在道路安全,通行效率等方面也拥有着更好的表现,结果表明从多个案例中迁移的应急经验有助于提升应急决策的快速性并优化事故现场的应急处置。本文的主要工作和贡献点主要体现在以下几个方面:(1)基于对2019年2月至2019年9月陕西省全境高速公路的交通事故监控视频录像以及文字报告的分析,本文首先提出了一种能够模拟不同类型交通事故现场处置流程的数学建模方法:道路突发事件的现场处置被抽象为多应急响应部门和事故现场交互影响的过程,构成事故现场处置的应急任务和响应行为被总结出,为了让构建的模型具有模拟多类型事故的泛化能力,任务级别的数学模型被建立。进一步的,为了方便评估应急决策效果,借助层次分析法中的成对比较矩阵,涵盖多角度全方位的应急处置评价体系被建立,包括道路安全,通行效率等在内的多方面因素被引入其中。(2)针对高速公路突发事件现场处置多应急响应部门参与的特点,为了解决事故现场多部门的应急协作问题,本文提出了一种基于多智能体深度强化学习算法的应急决策方法,算法的多智能体分别代表不同的应急部门,他们的响应行为即其负责的应急处置职能,通过迭代式参数更新,算法的应急决策被不断优化,并最终使得多智能体能够在团队协作下促进事故现场的应急处置。(3)为了复用蕴藏在事故处置记录中的应急处置经验,并进一步地提升事故现场的应急决策效果,本文提出了一种基于知识迁移的经验复用方法:通过将策略蒸馏方法适应性的应用到多智能体深度强化学习领域,一种名为基于策略蒸馏的多智能体深度确定性策略梯度的算法被提出。在“教师-学生”框架下,历史事故的处置经验被教师智能体先学到,之后借助策略蒸馏,处置经验以知识的形式被传授给学生智能体内,最后借助学生智能体为新发生的交通事故制定应急决策,从而实现了对应急处置经验的复用,有效提升了应急经验的利用率。实验结果表明与典型决策优化方法相比,PDMADDPG拥有更稳定和快速的应急决策,且可以有效地优化处置过程。此外,PDMADDPG作为面向多智能体的知识迁移方法,也为迁移学习在多智能体强化学习领域的应用做出了贡献。
其他文献
目前,我国老龄化问题严重,许多老年人存在睡眠质量问题。诸多研究表明睡眠质量受到室内物理环境的影响,但该影响的程度与年龄和地域等因素有关,目前并无统一的结论。中国寒冷地区针对老年人睡眠空间物理环境的实测研究较少,并且多数只考虑了热环境,并未考虑空气品质和噪声环境的影响,难以反映当前老年人睡眠期间室内环境现状。此外,针对老年人睡眠环境对睡眠质量影响的相关研究较少,难以反映当前各个物理环境参数对老年人睡
学位
党的十八大以来,习总书记十分关注教育事业的发展,并在2018年的全国教育大会上提出要坚持以人民为中心发展教育,明确了教育领域以人民为中心的发展原则。习总书记有关坚持以人民为中心发展教育的重要论述深刻体现了新时代社会主义教育事业的根本宗旨,并始终贯穿于习总书记有关教育工作的重要论述之中。深入贯彻落实习总书记坚持以人民为中心发展教育的精神,对于推动新时代中国特色社会主义教育不断取得新发展和新胜利具有重
学位
智能技术的发展为人们的生活带来便捷的同时,也引来了电磁污染问题。微波吸收剂由于其制备工艺简单、种类繁多以及应用广泛等优点受到众多研究人员的青睐。通过氧化锌与碳材料复合可以有效促进多种损耗机制协同作用,从而获得吸波性能优异的吸收剂。因此,本文利用水热法以及溶剂热法制备了不同微观形貌的氧化锌。在此基础上,利用两步碳化法制备了介电-电导耦合的Zn O/C复合粉体,得到厚度薄且吸波性能强的吸收剂。主要内容
学位
同步短程硝化反硝化除磷(SPNDPR)因其能够实现“一碳两用”,从而达到降低能耗且在碳源不足的情况下具有脱氮除磷效率高等优点而受到国内外学者的广泛关注。但由于亚硝酸盐氧化菌(NOB)的存在使得系统中氮的去除依靠全程硝化反硝化来实现,而非短程硝化反硝化,其中后者可以节省25%的能源和40%的碳源,且普通异养菌(OHOs)及聚糖菌(GAOs)对碳源的竞争使得系统中聚磷菌(PAOs)对碳源的争夺有限。近
学位
<正>心力衰竭是一组复杂的临床综合征,目前我国约有逾千万心力衰竭患者。若无有效治疗,慢性心力衰竭患者5年生存率低于50%,急性心力衰竭5年病死率达60%[1],心脏移植目前是治疗重症心力衰竭和终末期心力衰竭的最佳手段[2-3]。但由于供体和受体比例严重失调,等待移植的患者越来越多,严重的心力衰竭患者在等待供心的过程中规范应用药物治疗后仍不能控制,因此,一些辅助器械治疗例如体外膜肺氧合器、心房分流器
期刊
近年来,随着我国高速铁路列车运行速度的大幅提升,高速铁路轨道系统的平稳性、安全性要求愈发严苛。基于此,无砟轨道以其高平稳性、日常维护工作量小等突出优点而受到广泛关注和大量工程应用。目前,有限单元法仍是分析车辆-无砟轨道振动问题主流的数值计算方法。但随着列车速度的不断提升,采用有限单元法不可避免会造成模型规模急剧变大的问题,计算效率大幅降低。针对以上问题,基于移动单元法(MEM)研究成果,将MEM应
学位
在中国经济步入高质量发展的背景下,物流业与制造业联动发展逐步深入并逐步向两业融合迈进,两业各自的发展要求以及高质量发展的要求共同促使与两业联动发展有关的物流业高质量发展研究需要进一步开展。如何正确把握高质量发展阶段的经济发展方向、产业发展脉络,推动更有质量的经济发展建设,是目前中国经济研究亟需解决的重大理论与现实课题。如何通过物流业与制造业的联动发展实现高质量发展的要求,也是值得深思的问题。对中国
学位
混凝土结构在服役期间长期遭受外界硫酸盐侵蚀,由其破碎制备的再生骨料不可避免地携带硫酸盐腐蚀介质,将这些再生骨料制备成混凝土,其内部也必然携带硫酸盐腐蚀介质。再生骨料携带的硫酸盐腐蚀介质可在混凝土内与水泥水化产物发生一系列物理化学反应,形成内腐蚀,进而影响混凝土的长期力学性能和耐久性。现有研究主要集中于再生骨料强化及其强化后对混凝土性能的影响,而很少关注再生骨料粘附砂浆携带硫酸盐腐蚀介质对混凝土性能
学位
建筑施工企业作为我国国民经济的重要支柱,要想在市场竞争中生存并且取得长足发展,就必须重视吸引和保留人才。目前,建筑企业建设人才严重流失现象没能得到有效控制,已经严重影响到建筑企业的正常发展,晋升机制的缺失、不健全以及员工对自身职业发展感到迷茫是造成人才流失的主要原因之一。基于此种情况,研究施工企业项目现场管理人员职务晋升的影响因素就十分必要了。本文以A企业施工项目现场管理人员为研究对象,通过研究其
学位
“李文林式”革命根据地,是在土地革命时期创立起来的位于东固的一块根据地,是中国共产党创建的最早的农村革命根据地之一。它自1927年9月召开坳上会议开始到1929年11月成立赣西临时苏维埃政府截至,是一块经历创建、巩固及发展三个阶段而独立存在两年多的根据地。本文通过分析“李文林式”革命根据地的基本情况和发展历程,在总结“李文林式”革命根据地的特点及历史贡献的基础上,浅析其对当代中国建设的借鉴作用。本
学位