基于多智能体强化学习的列车调度方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:konashu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
列车调度问题是铁路交通领域的重要研究课题,高效合理的列车时刻表不仅能最大限度地缓解交通压力,同时也能有效减少列车的通勤时间和资源消耗。复杂铁路网中的列车调度问题是经典的NP难问题,几十年来,利用传统算法寻求最优调度方案的尝试从未停止,动态规划、整数规划等数学方法在该领域取得了显著的成效。另一方面,强化学习(Reinforcement Learning,RL)理论近几年发展迅速,在各种决策问题上应用日趋广泛,尤其多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)在多智能体交互的复杂环境中发挥越来越重要的作用。本文将多智能体强化学习方法与列车调度问题相结合,针对列车运行环境,提出了新的多智能体强化学习模型框架,利用智能体在铁路网络中的探索与自我学习不断优化列车调度的策略,以达到合理调度的目的。本文主要提出了以下两种基于不同决策策略的多智能体强化学习(MARL)框架,用于解决列车调度问题。基于同步协作网络(Synchronous Cooperation Network,SCN)的列车调度方法。在环境中,智能体即列车之间是以合作的形式互相影响的,本方法中智能体之间采取集中训练,分散决策的策略。训练过程中,智能体间可以交换一部分信息,使其能获得更大范围的观测信息。在作出决策时,智能体间相对独立,依据自身的策略作出各自的动作。由于合作环境中,智能体之间是平等的关系,这更有利于整体策略向全局最优的方向收敛。实验结果表明,同步决策模型在收敛速度和稳定后的平均回合奖励上,表现要优于一些传统强化学习算法。基于异步协作网络(Asynchronous Cooperation Network,ACN)的列车调度方法。根据环境中列车属性的不同,为它们设置不同的优先级别,优先级高的智能体先做出决策,优先级低的后做出决策。因此低优先级的智能体能看到高优先级智能体可能做出的动作,并将这些信息作为决策的影响因素考虑在内。在此模型中,各个智能体的观测信息是不同的。实验表明,异步决策的优势在于降低了智能体在路口处发生冲突的概率,一般情况下优先级高的列车会优先通过,节省了汇车时间。最后,为了更直观地展示多智能体强化学习在列车调度问题上的应用成果,本研究实现了列车调度演示的原型系统。系统具有环境参数设置,模型选择与任务选择等功能,将模型设置、训练等过程与最终的结果展示结合在了一起。
其他文献
背景与目的:冠心病常伴有多种合并症,其中合并2型糖尿病的患者约占20%-30%。冠心病和2型糖尿病患者均可存在血脂代谢异常,当两种疾病相互作用时,血脂代谢紊乱更加严重。大量研究证实,LDL-C可促进动脉粥样硬化的发生发展,而HDL-C是动脉粥样硬化斑块形成的保护性成分。ApoA是HDL颗粒的重要组成成分,ApoB主要存在于LDL颗粒中。已有多项研究证明ApoA与冠状动脉狭窄的关系,但对冠心病的分类
当今世界文化交流日益频繁,对人类产生巨大影响。文学是语言文字的艺术,是文化的重要形式,体现人类对丰富精神世界的渴望。本实践报告选取阎连科教授在香港科技大学“文学关系—写作中的内脉线”的演讲。以此次口译实践为基础,发现口译主要问题,并提出相应对策。本次口译实践中主要探讨译语问题包括译语冗余,译语非流利,译语语篇衔接和连贯性问题,并针对这三个问题,提出解决策略。针对译语冗余问题,采用整合优化源语、译语
现代社会随着数据的急剧增多,逐渐进入到大数据时代,人们对数据深度知识的挖掘也不断增多。电影是人们必不可少的娱乐项目,对用户进行个性化的电影推荐也越来越重要。但是单模型推荐对推荐效果具有很强的局限性,根据环境的不同而采用统一的模型处理则会降低推荐效果,而且在数据飞快演变的快节奏中,对用户的实时推荐也变的尤为重要。因此,如果在尽可能短的时间内,根据用户的不同场景,对用户进行精准而实时的推荐是当前数据挖
近年来,固体氧化物燃料电池(SOFC)因其可将燃料化学能高效转换为电能而受到广泛关注。为了使SOFC技术在经济上比化石燃料发电技术更具竞争力,必须有效地降低材料制造成本并延长电池使用寿命,这就需要将SOFC工作温度从高温(800-1000°C)降低到中温范围(500-700°C),同时开发具有高电化学性能的阴极材料,其中BaFeO3-δ作为具有较高氧还原电催化活性的混合离子电子导体而成为研究热点,
近年来,有机发光二极管(OLEDs)因其具有电致发光效率高、超薄、柔性、宽视角、响应快、节能、可大面积制造等优点在平面显示和固态照明领域引起了人们广泛的关注。而磷光OLEDs由于可以利用所有的75%三线态激子和25%的单线态激子,实现近100%的内量子效率,成为高效OLEDs的重要研究方向。本论文系统的研究了主体和客体能级的关系对磷光OLEDs电致发光性能的影响,为高效磷光OLEDs的制备提供了依
真核细胞中,基因的调控以及精准表达对于生物的生命活动起着十分关键的作用。而研究增强子与启动子相互作用(Enhancer-Promoter Interactions,EPIs)的关系有助于人们理解基因调控关系,进而揭示与疾病相关的基因,为疾病诊疗提供新思路和新方法。传统的生物检测方法的实验成本高、耗时长,且受分辨率的限制,难以精确鉴定单个EPIs。通过计算方法来解决生物问题已成为近年来的研究热点,近
随着科技的进步发展,富勒烯、碳纳米管、石墨炔等碳的同素异形体不停地开始被人探索。其中,富勒烯因为具有特殊的分子结构和化学物理特性,引起了学者们的普遍研究。除此之外,将某些特殊的原子或分子、团簇等嵌入富勒烯的碳笼,便可形成内嵌金属富勒烯。作为同时具有外部碳笼和内嵌物质的性质的内嵌金属富勒烯,他们之间也会发生一些电荷转移从而导致整个分子衍生出特别的新的性质。这些现象使其备受关注。对于新结构的内嵌金属富
熔点是判断含能化合物能否成为熔铸载体的最基本要素,因此如何降低含能化合物的熔点,是现今熔铸载体的研究重点之一。低共熔物是两种或两种以上物质形成的熔点较低的混合物,是降低熔点的有效手段。但在近些年的报道中,主要侧重于低共熔物的合成和表征,对于低共熔物的形成机理与组分间相互作用的研究较少。氮杂环唑类化合物由于其生成焓高、感度低、爆轰性能好的优点,渐渐得到了人们的关注。本文采用分子动力学研究了氮杂环唑类
有机废水在自然条件下不易分解,普通水处理技术难以对其彻底降解。作为高级氧化技术的一种,类芬顿技术具有操作简单,处理条件温和、反应可控和、氧化能力突出等特点,将有机废水降解成无毒无害的底物。双元金属氧化物作为光芬顿催化剂被广泛研究,但是存在团聚,降解效率不高等缺点。本论文将纳米碳材料引入双元金属化合物中以减低其团聚和提供更多的活性位点的策略来增强降解能力。主要研究内容如下:采用低温沉淀法和水热法两种
医学图像分割是把医学影像进行像素级别的分类,从而得到每个像素所属的类别。像肾肿瘤、肺肿瘤这样的肿瘤,通常可以发生在正常器官的任何一个位置。由于恶化的程度不同,肿瘤的大小和形状也就不同,这些不确定性给判断病情和肿瘤定位带来了很大的挑战。医师通过CT扫描图片来观察病人的病理情况,随着扫描切片的大量拍摄,医生的工作量变得非常大,工作效率变差。可以利用图像分割方向的知识,对医学图像的每个像素点进行分类,得