多智能体合作对抗环境下策略优化技术研究及系统实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:bchen2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着多智能体深度强化学习方法的快速发展,多智能体深度强化学习技术广泛应用于多智能体合作、竞争以及合作-竞争等诸多应用场景当中,在实际应用当中发挥着重要作用。如何有效地应对环境的非稳定性和简化策略学习过程,是当前复杂合作-竞争环境下的多智能体系统亟需研究和解决的两个挑战性问题。为此,本文针对上述两个问题展开研究,提出了基于增强策略泛化能力的敌-友深度确定性策略梯度方法和基于目标分层分组通信的多智能体强化学习方法两种新颖方法,在此基础上,设计实现了一个合作-对抗环境下的多智能深度强化学习策略优化原型系统,并对所提出方法的有效性进行了实验验证。本文的主要研究内容如下:(1)针对环境的非稳定性问题,基于现有的最大最小化多智能体深度确定性策略梯度算法(M3DDPG),将敌友Q学习算法(FFQ)中的最小化敌人和最大化友方的思想引入到集中训练分布执行框架中,提出了一种基于增强策略泛化能力的敌-友深度确定性策略梯度方法(FD2PG),该方法从团队角度出发,从增强敌方团队的对抗能力和提高我方团队的合作能力两个方面同时进行优化,从而有效地提高了我方团队智能体在合作-对抗环境下学习到策略的性能和泛化能力。(2)针对随智能体种类和数量增加导致的智能体策略学习难度呈指数级增加问题,从简化策略学习过程的角度出发,提出了一种基于目标分层分组通信的多智能体强化学习方法(GHGC),该方法首先利用先验领域知识或预定义的规则对智能体进行分组,将相同目标或种类的智能体聚集到同一组中;在此基础上,提出了 一种知识共享方法保持组内智能体的认知一致性,从而实现组内智能体之间的合作;最后,通过引入组间通信和价值分解的方法来保证各小组之间的合作,进而实现整个合作团队中智能体合作策略的学习,从而有效地简化了智能体的策略学习过程。(3)基于上述研究工作,设计实现了一个多智能深度强化学习策略优化系统,并针对上述工作的有效性进行了大量的实验验证与评估。实验结果表明,本文所提出的方法相比于现有的方法,在策略性能和策略拓展性等方面上均取得了明显的提升。
其他文献
进入21世纪以来,全球工业生产高速发展,新一代智能信息技术和工业生产相互融合。数据采集系统在工业生产过程中的普及,收集到了大量高维度的多变量工业时间序列数据。这些数据包含了生产过程中的工况调整、运行规律、和异常状态等丰富的信息。同时操作人员希望预先了解某些关键指标的未来变化趋势,从而实现性能预测、节能减排、提高生产效率等功能。因此,针对工业时间序列数据的预测任务成为了相关人员的主要研究对象之一。然
学位
视频作为一种最常见的媒体信息目前已在各个领域都得到广泛的应用,与之相关的技术也在不断地发展更新,其中对视频中的某些物体进行消除也逐渐引起重视,并用于处理影视制作、视频合成等视频编辑任务,成为计算机视觉领域的主要研究问题之一。物体消除作为视频修复问题的一个子任务,目前还未获得足够多的关注,现有的工作也是将其直接视为补全问题进行相关处理。消除与补全的不同之处在于,消除需要相应的掩码来指示物体位置,否则
学位
以高陡度曲面和大口径凸非球面为代表的复杂面形元件在空间光学系统、航空航天,先进武器装备系统等高科技领域中得到了越来越广泛的应用。当前,在复杂曲面制造过程的适应性检测中存在诸多瓶颈问题:一是在研磨、铣磨和粗抛光阶段,高陡度类复杂曲面的坐标检测问题。高陡度给三坐标测量机(Coordinate Measurement Machine,CMM)带来更加显著的空间运动误差和测头误差,进一步放大了测量不确定度
学位
气体传感器被广泛应用于工业、农业、室内环境监测、军事等领域,用以监控日益严重的室内外空气污染问题与突发战场环境问题。电阻式半导体气体传感器因制备工艺简单、应用范围广、节能、安全等优点而备受关注,其中石墨烯传感材料因具有大的比表面积以及优异的电学调控特性,成为近年来研究的重点之一。然而本征石墨烯以及石墨烯衍生物(如氧化石墨烯或还原氧化石墨烯)还存在灵敏度不高、响应恢复时间过长、选择性差等问题依然有待
学位
数字图像修复技术是指利用有限的完好信息将缺损区域的内容进行重建,使得修复后的图片全局语义合理并符合人眼的视觉特征。传统的修复方法由于其修复模型表征能力的限制,在缺损区域较大或者语义信息不足的情况下修复效果往往不尽如人意。基于深度学习的图像修复技术依靠其强大的语义合成能力,使其能够捕捉到高层次的特征信息,重建出合理的上下文语义内容和纹理细节。但现有的大部分修复模型还是存在修复效果不稳定,结果准确率不
学位
多帧图像超分辨是指从多张低分辨率图像中恢复高分辨率图像的过程。近些年来该项技术被广泛应用于医学成像、遥感成像、视频监控和通信传输等领域。多帧图像超分辨技术的重点和难点在于如何充分结合帧间的补充信息和帧内的上下文信息提升超分辨性能。多帧图像超分辨按照输入图像的种类可以分为双目图像超分辨和视频超分辨,本文针对上述问题展开研究,取得了如下进展:在双目图像超分辨方面,本文提出通用的双目注意力模块,能够充分
学位
MEMS(Micro Electromechanical System)电磁式微镜属于微光机电系统。由于其具有体积小、功耗低、精度高、响应速度快等诸多优点,在光通信、生物化学、医学成像以及消费电子产品方面有着广泛的应用。但是微镜系统在实际中容易出现不可逆的故障,严重影响相关产品的生命周期,因此研究MEMS电磁式微镜的故障模式及诊断方法,预测其生命周期,提前更换相关部件,对MEMS电磁式微镜的推广及
学位
期刊
新冠肺炎是一种新型的呼吸道传染病,它的出现对世界的发展和人类的生存造成了严重的威胁。新冠肺炎患者的肺部CT图像具有特异性,若能加以正确判读既可对核酸检测的结果进行补充,又可提高诊断的准确性。但由于该类图像复杂且量大,可胜任的医生相对不足,目前对其进行判读的效率和准确性都还不能满足需要,因此人们迫切需要新的技术和方法用于其辅助诊断。计算机视觉技术的出现使计算机有望能够像人眼、人脑一样识别、理解图像,
学位
利用接收地面辐射源信号到达多颗卫星的时差(Time difference of arrival,TDOA)和频差(Frequency difference of arrival,FDOA)并结合已知高程可以确定其位置。该技术由于其定位精度高、可瞬时定位等优势,已逐步得到关注和应用。由于实际一次过顶过程中,卫星会多次截获同一辐射源信号并进行定位,若对多次定位结果进行融合,可以进一步提高定位精度和消除
学位