基于Stein变分梯度下降法的多智能体强化学习方法研究

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:CHEUNGKWOKKUNG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体强化学习领域的研究正在快速扩张,在多个领域中如机器人团队,资源管理,分布式控制,游戏,电子商务等均取得了瞩目成就,多智能体强化学习问题的研究往往涉及密集计算与智能体之间的相互关系,而经典强化学习算法领域内探索与利用的权衡问题,在多智能体领域中仍是一项挑战。本文通过对Stein梯度下降法(SVGD)理论技术的引入,为该项挑战提供有效的解决途径,并以车联网下的智能车辆调度为应用背景。本文结合提出的多智能体调度框架,验证SVGD结合多智能体算法的有效性,发现它可以更好地权衡策略的探索与利用。在车联网时代下,以人工智能为基础的智能车辆提供各种服务方便人们的日常生活,这涉及到许多计算密集型的应用服务。而边缘计算技术可以将智能车辆的复杂任务卸载到车辆附近合适的卸载任务节点,这需要了解车辆资源需求、车辆移动、移动核心网络状况,非及时的卸载将不能满足实时服务的需求,影响智能车辆的用户体验质量,同时还需保证节点提供方尽可能获取服务收益。为了实现这个目标,本文将其划分为全局节点调度和自主探索联合优化子问题,对于全局节点调度问题,我们应用改进的Kuhn-Munkres(KM)算法,来充分调度不同时刻下空闲的边缘计算节点;在自主探索问题上,我们以深度确定性策略梯度算法的网络架构为基础,结合智能体间的通讯模块,提出了一个新型的多智能体调度框架,引导智能车辆提前赶往附近潜在的空闲计算节点区域。在多智能体调度框架中的工作侧重于智能体间的交流,本文引入SVGD作为策略网络部分改进后的更新方法,利用SVGD的快速拟合最优概率分布的特点,将智能体策略网络的参数群与算法中的粒子群概念相关联,初始策略网络通过对给定后验分布的不断近似,从而拟合出多样化的策略集合供不同智能体使用。本文实验中所使用的数据集源自构建的仿真网格环境,该环境基于智能车辆的计算任务与对应路测单元(Road Side Unit,RSU)分配调度的应用背景,每一个数据样本均记录了 RSU与车辆的位置、时序信息,经实验验证,SVGD与调度框架的联合在仿真环境的任务目标中,可以同时考虑到用户满意度和总体收益的权衡,达到更好的性能。
其他文献
为推广绿色施工理念,强化建筑工程项目施工管理,分析了建筑工程项目中绿色施工管理的必要性,提出了建筑工程项目绿色施工管理策略:自上而下树立绿色施工理念,选择绿色环保的建筑材料,施工过程中采取节能降耗措施,加强施工现场环境保护,推广适用绿色施工技术,充分运用新型节能技术、新型环保材料,营造良好的施工作业环境,达到理想的绿色施工效果。
建筑行业发展以及运行过程中,为满足行业发展的标准,建筑行业需要把绿色理念当成核心,通过技术的创新、技术的整合等多个手段,发挥绿色施工的优势,满足行业的持续化、绿色化发展需求。在以往的建筑施工中,存在着污染严重、能源损耗等问题,这些现象若不能及时处理,不仅会影响建筑行业的施工质量,也会增加工程项目的管理难度,无法满足行业的持续化发展需求。根据建筑施工技术特点,对绿色理念的融入进行分析,认识实际建筑施
基于MEMS陀螺仪和加速度计的工作特性,通过初始对准确定目标的初始位置、姿态、速度,计算出初始捷联矩阵,将MEMS器件测量的惯性系的加速度、角速率投影到导航系下,用于更新位置和姿态矩阵和导航计算,并提取出姿态角和位置,由于高度通道系统发散的问题,需引入外部高度测量信息形成负反馈校正,由惯性器件误差机理与特性,实现较为精准的惯性导航。试验结果表明,本文方法能较为准确定位载体位置与速度信息,具有一定参
【指示性摘要】尿路上皮癌(UC)是泌尿系统常见的恶性肿瘤之一,其发病率及死亡率较高,几十年来,标准的治疗方案仍是基于顺铂的化学疗法,但是不良反应较大且疗效不佳。目前越来越多的免疫检查点抑制剂在治疗UC中显示出良好的疗效和安全性,在精密医学时代,UC的未来在于使用疗效更确切、不良反应更小、更有针对性的治疗。同样,开发可靠的预测生物标志物以及创新的治疗组合方法势在必行。本文将对近年来尿路上皮癌免疫治疗
目的:探讨信迪利单抗(达伯舒)联合AP化疗治疗晚期肺腺癌合并恶性胸腔积液的近期疗效、远期疗效和安全性。方法:选取2019年2月至2020年2月四川省眉山市人民医院肿瘤科收治的晚期肺腺癌合并恶性胸腔积液的患者124例作为研究对象(均经病理学确诊),采用中央随机系统分配法分为化疗组63例和信迪利单抗组61例。化疗组接受培美曲塞+顺铂化疗,信迪利单抗组在对照组基础上联合应用信迪利单抗,均治疗4个周期后观
晚期肺癌患者最基本的治疗方式是化疗,其在肿瘤病灶及生存周期的改善中具有明确疗效,但是带来的毒副作用及生活质量的下降也不容忽视,中医药在其辅助治疗中恰好能补齐短板,提高疗效。本文通过检索国内外相关文献,分别从对患者肿瘤病灶、生存周期、生活质量、毒副作用、免疫指标方面将近几年的相关研究做一系统论述,结果示中医药辅助化疗能起到增效减毒的作用,但在癌因性疲乏及癌性疼痛方面的研究较少,生活质量评价标准不够全
目的:优化复方氟尿嘧啶口服溶液包封率的测定方法。方法:采用高速低温离心的方法,分离游离态的氟尿嘧啶,以高效液相色谱法测定药物中游离的氟尿嘧啶,计算其包封率。以Agilent 5TC-C18(2)(4.6 mm×250 mm, 5μm)为色谱柱,流动相为6.8 g·L-1的磷酸二氢钾溶液(用5 mol·L-1的氢氧化钾溶液调pH值至5.7±0.1)-甲醇(95∶5),检测波长为265 nm。结果:氟
社会的快速发展使得人们的生活和计算机视觉的联系越来越紧密,导致目标跟踪在智能驾驶、机器人与监控系统等领域受到了极大关注,目标跟踪在各类系统的应用也越来越广泛。目前,目标跟踪算法依然存在很多问题,例如在复杂背景、快速运动等多种情况下,目标跟踪的成功率低等。近些年随着机器学习相关技术的迅猛发展,基于机器学习的目标跟踪算法进展也十分迅速,但是需要有大量多种场景图片的标准数据来训练卷积参数,其中涉及到十分
近年来,随着信息技术的不断发展,自然语言处理的研究逐渐转向自然语言理解的研究,机器阅读理解便在这个大背景下应运而生。机器阅读理解不仅仅是对文字的“感知”,更是对文字的“认知”。机器阅读理解任务要求机器理解上下文本信息后,准确地回答出相关的问题,其结果可以用来评估机器的阅读理解能力。通常情况下,该任务需要机器能够对文本中的单词进行词性标注和命名实体识别找出其中的实体信息,更深层的则是需要机器执行句法
为了实现“富民、兴边、强国、睦邻”的目标,2006年国家开始实施兴边富民行动。截止到现在,圆满完成了三个五年规划,使得边境地区经济社会得到巨大的发展。现利用统计数据对当前我国陆地边境地区发展现状进行统计分析,构建评价指标体系对9个边境省(区)、140个边境县(区、旗)经济社会发展程度进行评价,对于准确把握我国陆地边境地区发展态势,为谋划下一步工作,具有一定的现实意义。本文将对十三五期间兴边富民行动