稀疏奖励下基于情感的异构多智能体强化学习

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:liupen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在强化学习中,当处于奖励分布稀疏的环境时,由于无法获得有效经验,智能体收敛速度和效率都会大幅下降.针对此类稀疏奖励,文中提出基于情感的异构多智能体强化学习方法.首先,建立基于个性的智能体情感模型,为异构多智能体提供激励机制,作为外部奖励的有效补充.然后,基于上述激励机制,融合深度确定性策略,提出稀疏奖励下基于内在情感激励机制的深度确定性策略梯度强化学习算法,加快智能体的收敛速度.最后,在多机器人追捕仿真实验平台上,构建不同难度等级的稀疏奖励情景,验证文中方法在追捕成功率和收敛速度上的有效性和优越性.
其他文献
基于解决目前国内中小学课间操逐渐趋于形式化现象的这一显著问题,本着切实提升学生体质的这一主要原则,在“青少年健康体能教学与训练体系”的基础上,开发了学生健康体能课
目前,沉积学研究热点主要包含"源—汇"系统、深时气候与沉积作用、大洋(陆)钻探与深水沉积过程、碳酸盐岩沉积环境与沉积模式、(混积岩)微生物岩沉积学及沉积过程模拟、地质
高光谱图像具有高维度、带间相关性较高、样本数量较少等诸多问题,直接利用表示学习算法对高光谱图像进行分类会导致严重的维数灾难.对于高光谱图像,不是所有的光谱带都可用于特定的分类任务.因此,文中提出基于增强空谱特征网络的空间感知协同表示算法.依据高光谱图像内在的低维流形构建基于空谱特征的分层网络.利用训练的网络对高维数据进行特征提取,并利用空间感知协同表示算法进行分类.在两个高光谱数据集Indian
设备技术改造是设备技术升级,提高设备健康运转率,提高生产效率和效益的重要途径。在企业生产管理中同样起着决定性的作用,不可忽视。那么如何进行科学的设备改造就是本文论
少儿报刊是少年儿童成长发展的重要精神食粮。助教导学类少儿报刊拥有巨大的读者群,其育人使命和助学功能变得愈发重要。本文主要从报刊内容定位、读者认知特点、助教导学功
随着我国经济的持续发展和现代化城市进程的加快,城市建设日新月异,产业结构也在不断进行调整。由于大批工业建筑也在迁移,以至于大量的废弃工业建筑遗留在城市中,这些废弃建筑的
在高中足球模块选修教学中,通过设计抢圈练习可以提高学生对球的控制能力,再加上进攻方向及球门的设计,使学生在控球上更加专注。简单的抢圈练习,可以提高球员在压力下的传接
文史类稿件,涉及的文史知识一般多而庞杂。像《大唐诗人的朋友圈》这样典型的文史类稿件,背景是唐朝,主角是唐朝著名诗人,主要内容是唐代诗人的交游,书稿中涉及的文史知识非
传统村落拥有大量历史文化瑰宝,是中国悠久历史和璀璨文明的见证者,理应得到保护和传承。以中国传统村落——大余县云山村为例,根据国家乡村振兴战略20字方针要求和云山村的
针对图像超分辨率重建中几何结构扭曲和细节缺失等问题,文中提出基于多残差网络的结构保持超分辨重建算法.在小波变换域和梯度域上进行深度学习.文中算法包含3种残差网络.残差梯度网络用于结构及边缘信息的重建.残差小波变换网络从整体上进行图像高频信息的重建.残差通道注意力网络通过调整网络注意力,着重学习重要的通道特征,从局部恢复图像高频信息,提高重建效率.实验表明,文中算法在定量结果和视觉效果方面均取得较优