基于强化学习的多智能体协作算法研究

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:qwer2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,人工智能已经成为专家学者研究的热点领域,而构建能够在复杂环境中做出较好决策的智能体是现代人工智能研究的基石。然而,由于智能体环境部分可观察且不稳定、多智能体之间以及智能体与环境之间相互影响相互制约等因素,多智能体问题仍然是一个极具挑战性的研究任务。基于强化学习的多智能体协作近年来已被证明是解决此类问题的较优范例之一。多智能体通信是实现多智能体协作的最常用方法之一。但是,现今多数智能体的通信协议通常采用人工制定的形式,无法捕获智能体之间的动态交互,导致智能体环境不稳定。为此,本文以动态实现多智能体协作为目标,以尽可能快的训练智能体为原则,构建了一个新的注意力通信模型(ACM),自适应地构建通信路由以及通信信息。论文工作的主要工作和贡献如下:(1)提出一个新的协作感知网络(CAN)。该网络既可以动态计算各智能体之间的关系确定其通信路由,又可以从各智能体的状态信息中蒸馏出其通信内容。使用该网络不仅可以节省通信资源,而且可以充分利用智能体的行动策略信息。利用该网络,可以动态构建通信协议以适应不断变化的环境及策略,提升智能体训练的稳定性,从而使得各智能体可以获取更智慧的协作策略。(2)构造出注意力通信模型。本文成功地将协作感知网络与强化学习算法构建的策略网络相结合,构造出注意力通信模型,两个网络迭代更新以获取具有协作能力的智能体。为了缩短训练过程,本文在注意力通信模型中引入注意力机制选择有效信息,同时采用元学习思想训练智能体使智能体学会学习。经过充分训练,注意力通信模型在协作领域表现出杰出的能力。(3)论文将构造的注意力通信模型在离散环境追捕游戏以及连续环境多步行者游戏中与三个代表性竞争算法进行对比测试,并以直观的图形分析了动态蒸馏出的各智能体的通信消息。测试结果表明,注意力通信模型在多智能体协作方面表现优于基准算法。
其他文献
真菌苯二酚内酯类聚酮化合物具有抗癌和调节免疫系统等重要的生物活性,其生物合成是近年来的研究热点。介绍了苯二酚内酯的双聚酮合酶协作合成机制和组合生物合成,并以几种真菌
简述了兰炭掺烧技术的研究背景;介绍了掺烧实验的主要过程及工艺操作指标,阐明了兰炭掺烧技术的关键点和创新点。应用效果表明:①掺烧兰炭后吨氨煤耗降低20kg,每月可降低生产成本
城市道路地表径流污染已经成为城市水体恶化的重要原因之一。为了解镇江老城区地表径流污染特征,2010年7月到8月对镇江老城区的城市客厅、江滨新村以及南门夜市这3个汇水区域
随着经济全球化的发展,制造业企业为争夺竞争激烈的市场,以质优价廉的产品来留住更多的客户,付出的代价就是利润减薄。为了扭转这种局面,常规的降低成本的方法效果不明,因此,企业把注意力转向了制造生产过程,通过优化车间设施布局和物流设计,达到降低成本目标。作为制造企业生产系统的核心,车间设施布局直接影响物料搬运效率、企业生产效率。改善优化车间设施布局,是企业应对激烈市场竞争的良方妙药。本文通过查阅文献,了
目的了解高三学生的焦虑发展趋势,及不同成绩考生的焦虑水平的差异,为高考考生心理调适提供依据。方法收集500名高三学生下半学期模拟考成绩和高考成绩,以及3个时间段内采用
简要介绍了近百年来建筑结构抗震设计方法的历史演进,对现行规范规定的抗震性能设计方法进行了讨论,提出一些补充建议,如补充与规范抗震设防标准一致的性能目标,区分多遇地震
经过多年的实践,“创建以校为本教研制度建设基地”项目已经逐渐从实验试点、观念更新、制度建设转向全面推进、关注课堂、求取实效,本刊“教研”栏目将推出系列稿件,与读者
对高层住宅消防设施的维护管理进行研究,分析发现住宅维修资金在消防设施维护管理过程中存在使用障碍,提出制定高层住宅消防设施使用维修资金的管理办法,为解决高层住宅建筑
随着上一代农民工逐步退出历史舞台,新生代农民工开始成为经济建设的生力军。在经济转型阶段,员工对职业健康安全的需求成为影响"民工荒"的一个重要因素,这与新生代农民工自
目的:观察及研究改良经皮肝穿胆道引流术治疗恶性梗阻的临床效果。方法:回顾性分析2011年6月到2012年12月来我院接受治疗的108例胆道梗阻患者的资料,对其行PTCD术放置胆道引