基于多智能体深度Q学习的V2X通信资源管理研究

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:liujiao395495759
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
车联网能够全方位提高车辆互联和智能交通运输服务,如道路安全、交通效率和互联网接入等。但是由于车载通信网络的高速动态性,并且无线信道特性会因为道路附近的行人、建筑物、障碍物、以及道路上的车辆等因素构成的复杂交通环境的变化而改变,从而导致无线频谱和功率等资源管理受到较大影响,通信性能也受到很多挑战。因此如何有效的设计车辆到一切(V2X,Vehicle to Everything)通信资源管理至关重要。针对单输入单输出(SISO,Single Input Single Output)蜂窝网络中,多对车对车(V2V,Vehicle to Vehicle)链路复用车对基础设施(V2I,Vehicle to Infrastructure)链路频谱资源的场景,本文研究V2X通信的资源管理和优化问题以提高系统的通信性能。由于V2X通信资源管理的不确定性和多样化的服务需求很难被传统算法精确的建模及优化,本文采用基于深度Q学习的无模型方案进行建模和优化。该方案首先将无线频谱分配和功率控制的联合优化管理建模为多智能体强化学习(MARL,Multi-agent Reinforcement Learning)问题,然后采用深度Q学习(DQL,Deep Q Learning)方法求解该优化问题。本文主要的研究工作包括以下三个方面:1、研究并仿真实现了基于集中式决策和分布式执行的多智能体深度Q学习的V2X通信资源管理方案。该方案首先本地V2V链路使用深度神经网络(DNN,Deep Neural Network)来压缩本地观测信息,再将压缩后的信息反馈给基站(BS,Base Station)做进一步集中决策,目的是为了减少每对V2V链路传输大量本地环境信息到基站进行集中处理而导致严重的信令开销;其次在BS处采用深度Q学习方法进行集中式决策,然后将决策结果广播给每对V2V链路执行;最后利用加权和奖励来动态平衡V2I和V2V性能。仿真结果表明,所研究的方案具有很好的训练性能,系统总容量可以达到最优性能的97.3%。并且该方案可以通过调整加权和奖励的权重来改善V2I链路的信道容量,而对V2V链路产生忽略不计的影响。2、研究并仿真实现了基于分布式决策及执行的多智能体深度Q学习的V2X通信资源管理方案。该方案首先将多对V2V链路复用V2I链路频谱资源问题建模为分布式多智能体深度Q学习问题;其次本地V2V链路使用适合分布式实现的深度Q网络(DQN,Deep Q Network)的优化方法解决此问题,其中多对V2V链路(智能体)共同与未知的通信环境交互以获得本地观测信息,并执行动作获得统一的系统级别奖励。同时学习通过使用所获得的经验更新Q网络来改进频谱和传输功率管理策略。仿真结果表明,通过适当的奖励设计和训练机制,多对V2V链路可以学习以分布式方式进行协作,同时提高V2I链路的信道容量和V2V链路的有效负载交付率,从而改善系统的通信性能。3、提出并仿真实现一种基于联邦学习(FL,Federated Learning)的多智能体深度Q学习的V2X通信资源管理方案。该方案针对分布式决策训练时间长、收敛慢和智能体不了解全局环境信息以及集中式决策训练时间短、收敛快但信令开销大的特性,提出基于联邦学习的深度Q学习分布式协作方法。首先每对V2V链路采用深度Q学习方法在本地进行n轮马尔可夫决策(MDP,Markov Decision Process)训练过程,并且所有V2V链路将本次训练的Q网络模型参数反馈给FL服务器;其次FL服务器将所有本地模型参数平均聚合成全局模型参数,再分享给所有V2V链路来帮助各个V2V链路进行协作;最后本地所有V2V链路使用全局模型参数更新各自的训练Q网络参数,并进行下一个n轮的MDP训练,之后循环这个过程直至模型收敛。仿真结果表明,与研究内容2的方案相比,该方案的训练性能更好,并且可以实现更好的V2I链路和V2V链路性能,同时对有效负载的变化有很好的鲁棒性。
其他文献
作为经典的植物激素之一,细胞分裂素(Cytokinins,CK)在植物生长发育,生长-防御平衡,营养信号远程传递等方面具有关键性的作用。因此,建立植物体内CK实时原位分析方法,对于研究植物生理生化过程和信号传递网络机制等具有重大意义。由于传统的CK体内检测方法都具有一定的缺陷,我们采用对CK具有高亲和力(Kd≈2~4 n M)的CK受体拟南芥组氨酸激酶4(Arabidopsis histidine
当前无论是在学校中还是在职称评定方面普遍存在各种类型的考试,考试实际上是一种进行测试和选拔的过程,以此可以检验考生的真实水平,并为相关领域的人才选聘以及评定提供准确的依据。随着计算机以及人工智能技术的持续发展,逐步改变了传统的考试模式,在线考试系统的应用成为重要的趋势,在很多考试中已经采用了自动化的考试系统,可以基于计算机高效完成考试以及评分的过程,相对于传统的考试模式效率更高,成本更低,能够得到
同型半胱氨酸(Hcy SH),化学名为2-氨基-4-巯基丁酸,分子结构中含有巯基,是人体非必需氨基酸。人体内的Hcy SH主要来源于甲硫氨酸与半胱氨酸的新陈代谢。健康人体内,Hcy SH的浓度较低,原因在于含有甲硫氨酸的食品原料通过同型半胱氨酸转化为半胱氨酸,Hcy SH的甲基化反应可以得到甲硫氨酸。但当Hcy SH的代谢过程受到原发性或继发性原因影响时,上述反应在Hcy SH停止,它既不能向半胱
高胰岛素血症,是指血液中胰岛素含量高于正常水平的疾病,是Ⅱ型糖尿病、肥胖、冠心病、高血压、高血脂的发病基础,目前人们仍没有找到有效的治疗办法。在前期实验中从猪小肠中提取了一个命名为COX52-69的多肽,实验发现该多肽可以抑制糖诱导的胰岛素分泌,该多肽有望为此类疾病的治疗带来新的希望。基于前期的研究,本文对多肽COX52-69抑制糖诱导的胰岛素分泌的机制进行探究。本课题采用“基于表面等离子共振(S
抑制控制指的是抑制不必要的思想、行为和情绪,这对我们来说是非常重要的。抑制控制的能力直接影响到我们的日常生活,尤其对于那些抑制控制功能损伤的神经精神类疾病患者而言,抑制控制能力的受损,直接影响到了他们的正常生活和人格发展。因此,研究抑制控制的神经机制以及理解大脑如何导致抑制控制失败的原因,这对于临床干预以及促进训练、修复是非常重要的。描述抑制控制的范式有很多,研究表明不同的范式往往代表了不同的抑制
胎盘特异性蛋白 8(Placenta specific protein 8,PLAC8)是一种高度保守,富含半胱氨酸,有着独特结构并在组织中特异性表达的蛋白。PLAC8在细胞增殖、分化、凋亡、迁移及侵袭等生理过程中发挥着重要的作用。近年来,对PLAC8的研究主要聚焦于肿瘤发生,但是PLAC8在肺癌中的相关研究还很少。前期统计数据显示,在肺癌组织中PLAC8的mRNA表达水平比正常肺组织中低;肺疾病
野木瓜是一种具有良好镇痛作用的传统药物,由野木瓜制成的野木瓜注射液和野木瓜片剂已广泛应用于临床。有研究发现野木瓜的主要成分野木瓜五环三萜皂苷(pentacyclic triterpenoid saponin,PTS)提取物可以抑制辣椒素诱导的TRPV1受体电流,说明野木瓜PTS提取物对TRPV1通道的调控可能是野木瓜产生镇痛作用的原因。同TRPV1通道相似的酸敏感离子通道(Acid-sensing
磁共振成像(MRI)技术具有对人体无损伤,软组织分辨率高,多参数成像等优点,目前已成为临床主要检查技术。但其最大的缺点是成像速度慢,并行MRI和压缩感知MRI是两种加速MRI成像速度的经典方法。并行成像MRI技术是利用多个线圈同时采集数据来缩短扫描时间,但由于噪声的影响,当加速因子较大时,其重建图像质量显著下降。压缩感知MRI技术突破了采样定理,进一步缩短采集时间,但图像重建是迭代进行的,整体成像
X射线(X-ray)是一种波长极短、穿透力强的电磁波,在医学诊断、放射治疗、空间探测、安防、环境监测、工业检测以及基础科学研究等领域有着广泛的应用。这些日益增长的应用需求对X射线探测器的灵敏度、响应和恢复速度、剂量检测限、能量和空间分辨率以及稳定性都提出了新的要求。本世纪初,新型X射线探测技术开始受到研究人员重视;尤其在近五年,相关研究取得了快速发展,新材料、新结构不断见诸报道,性能指标不断刷新纪
芽殖酵母(Saccharomyces cerevisiae)以不对称分裂的方式繁殖,纺锤体定位是保证命运决定因子通过细胞分裂精确分配到子细胞中的关键一环。已知Kar9与Dynein两条通路共同控制有丝分裂纺锤体的定位。Num1是一个在Dynein通路中发挥重要作用的膜蛋白,它为从胞质微管正端卸载到细胞膜上的动力蛋白Dynein提供细胞膜上的锚着点,便于其通过微管产生拉力定位纺锤体。已有不少研究报道