基于强化学习的货车编队系统自适应资源优化分配研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:ZFsky260583
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着物联网技术的深入发展,在云计算和通信技术的强大支撑下,汽车自动驾驶技术的迅速发展和关键技术的突破使得货车编队成为可能。除了通过降低空气阻力来减少卡车的油耗和空气污染外,有效的货车编队策略还可以在提高驾驶安全性的同时最大化高速公路吞吐量。然而,目前针对用于货车编队策略的资源分配模型仍处于研究的初步阶段。同时,车载移动设备的信息关联与处理技术限制了车辆之间的持续通信能力。此外,随着货车编队用户的增加,云端编队控制中心需要处理的编队服务请求也随之急剧增加,由于提供货车编队服务需要占用和花费有限的通信、算力以及存储资源,并且货车编队的环境具有动态性,这些问题给货车编队综合资源的优化分配带来了极大的挑战。另一方面,目前求解云资源管理模型的优化算法通常需要一些强假设才能满足算法运行的需求,这难以满足实际场景的需要和模型系统的动态特性以及系统策略的最优化。作为一种先进的算法优化模式,强化学习(Reinforcement Learning,RL)在训练中不需依靠大量的强假设条件,即可通过来自周围环境的反馈进行行动策略的学习,适应动态变化编队环境的同时,能得到近似最优的资源分配策略。因此,受RL在解决资源分配问题上成功经验的启发,本文以高速公路的货车编队系统为研究场景,利用强化学习来优化求解通过半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)构建的货车编队云计算资源分配模型。针对货车编队系统的资源分配问题,本文首先通过SMDP对货车编队动态服务请求的决策和编队系统的收益进行建模,研究并构建了货车编队资源分配的系统状态集、行动集、收益模型、决策时间点和状态转移概率。其次,针对基于SMDP构建的货车编队资源分配模型,以强化学习思想为依据,利用Q-learning算法对模型进行优化求解。在考虑交通系统资源费用和系统收入平衡的情况下,使得交通系统的总回报最大化。仿真结果表明,基于SMDP和Q-learning资源分配模型的综合性能优于传统的优化算法。最后,考虑到货车编队系统的长期回报和货车编队用户的体验质量,针对复杂的交通环境,进一步研究了深度强化学习并利用深度Q网络(DQN)对由SMDP构建的网络进行优化求解。实验结果表明,基于SMDP和DQN的资源分配模型的性能优于对比的方法。在降低请求处理延迟概率的同时,能够维持系统获得较高的回报。
其他文献
时空可达性是以个体的时空行为为基本单元,将满足出行者到达活动地点的需求放在首位,是衡量交通运输系统服务水平的一个综合性指标。相比于传统空间可达性,个体时空可达性强调了人执行活动的需求是否得到满足,突显了以人为本的思想。成都市地铁运营里程的快速增长,新开线路的逐渐增加,为居民的出行带来了诸多便利,从整体上提高城市各区域之间的出行效率和服务水平。地铁站点时空可达性的增强有助于提高地铁交通的吸引力,吸引
钢铁生产流程长,生产工艺复杂,生产过程中伴随着多种能源的使用和二次能源的产生。降低钢铁企业能源消耗的一个有效途径就是对能源供应与需求之间的平衡问题进行研究。本文从实际生产中提炼出钢铁企业能源供需协调优化问题,针对氧气系统供应与需求之间节奏差异导致的供需匹配难题,研究了氧气系统协调优化问题,通过建模求解来提高氧气的利用率、实现整个系统的经济运行。针对实际生产中钢铁轧线区多产线能源供应和需求之间的复杂
新时代我国的主要矛盾转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾。人民矛盾的解决需要不同领域的共同努力。社区体育文化作为人们进入美好生活的新起点,是人民参与文化生活、改善身体健康的重要载体。据了解,新时代社区居民对健康的重视程度不断提高,对高质量生活追求的愿望日益高涨,使他们积极参与到体育运动中来,进而也使社区体育文化建设得到了长足的发展。目前广场舞在社区居民体育项目中成为最受欢
校服是集功能性与文化性于一体的服饰,不仅是一个学校校园文化的集中展示,更是一个地区管理水平和文化程度的体现。在发展迅速、包容性极强的21世纪,全球一体化趋势的加强给民族文化带来冲击的同时,也为多姿多彩的民族文化提供了发展机遇。通过对国内外校服研究现状的分析,发现目前校服设计研究中缺少对校服区域特色和民族特色的考虑,为此展开本课题的研究。本课题采用文献资料搜集、实地走访考察、调查问卷统计的方法详细论
弯曲振动辐射板因为大面积特点在空气中得到了广泛的应用。如超声波干燥、凝聚、除尘、超声测量等领域。在研究弯曲振动辐射体的声场时主要从它的振动位移分布和振动模式去研究。对弯曲振动圆形薄板的研究已达到了比较深入的水平,甚至阶梯圆盘的设计也己得到了一定的进展。相对来讲,弯曲振动矩形薄板声场的研究不太深入,特别是有关自由边界矩形板辐射声场的研究相对较少。因为,自由边界弯曲振动矩形板的振动位移没有解析表达式,
BIM技术作为CAD后建筑领域的一次大革新,在建筑行业中发挥了重要的作用,集中体现在模型可视化、模拟施工等方面。近年来,轨道交通的发展速度越来越快,使用BIM技术加快发展也成为必然趋势。然而,传统的轨道交通BIM可视化仅仅存在于建模软件,比如Revit等软件,是一种典型的C/S模式,并不满足实际施工时各施工人员快速查看模型、快速依据模型进行交互的需求,这阻碍了行业的发展。所以将轨道交通BIM模型从
高速铁路调度指挥的核心是通过对列车运行各环节和区域运输各工种状态的调整,保证列车运行态势处于正常状态并不断向前推进,有效运用铁路运输资源,高质量地完成运输任务。高速铁路运输组织态势尤其是列车运行态势的评估是调度指挥的关键,其相关理论方法是高铁智能调度理论的基础。我国在铁路调度指挥智能化方面的研究虽已取得了较为显著的成果,但针对整体运输组织态势评估的高速铁路智能调度理论与方法的研究尚未见到,研究高铁
本文研究铁路双向编组站列车-车场指派优化问题,给定计划时段内的到达列车及其编组内容、图定出发列车及其编组要求、以及上、下行系统的接车、改编、发车能力,该问题在于确定到达列车的接车系统和出发列车的发车系统,使得各出发列车满足满轴、正点和不违编要求,各系统能力不超过限制,且车辆在站总停留时间最小。首先结合现场实际,论述双向编组站的主要工作内容和与之相匹配的设备配置和工作策略。结合双向编组站调度指挥工作
为掌握泥质膨胀岩土遇水后膨胀的工程特性,论文以膨胀土及泥岩为研究对象,通过理论分析、试验验证等方法对泥质膨胀岩土的膨胀机理和膨胀参数(水化膜厚度、膨胀应变、膨胀力等)进行了研究。总结了泥质膨胀岩土的膨胀机理,提出了定量化获取粘土颗粒水化膜厚度的有效方法,并推导了与含水率相关的膨胀应变公式和膨胀力公式。主要研究成果如下:(1)从粘土矿物的结构及成因、水在粘土矿物中的存在形式等出发,利用常规显微镜研究
摘要Steven Vickers将拓扑的方法与逻辑理论相结合建立了拓扑系统理论,并将这一理论应用于理论计算机科学的研究中.而产生于上个世纪70年代的Domain理论和80年代的Quantale理论作为理论计算机科学的数学基础,成为数学与理论计算机科学研究者共同关注的领域.自2000年以来,模糊集理论被应用到量化Domain理论中,形成了模糊Domain理论.本文首先将Quantale理论,量子空间