基于解耦社会强化学习的多智能体协同控制的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:wosee_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要针对多智能体协同控制问题进行研究。多智能体系统是环境中多个自主智能体交互组成的计算系统,实现多智能体协同控制是提升整体效益的关键。多智能体协同控制的目标是生成一致性策略,其中,最终多智能体收敛到的主导策略称为社会规范。社会规范的涌现是保证智能体协作的关键。针对大规模分布式多智能体系统,由于系统中不存在中心式的控制节点,较难在智能体还未进行交互前直接生成协作策略,因此,研究针对复杂社会网络结构下,如何设计高效的学习策略促进社会规范涌现具有重要意义。针对上述问题,本文将多智能体的协同控制建模为协调博弈问题,提出了解耦的社会强化学习框架,设计基于状态空间分解的强化学习的规范涌现策略。使用语言协调博弈进行验证,其中,智能体需要收敛到一致的词典以成功进行交流。词典表示概念到单词的映射关系,任意词典均为备选规范。直接针对规范整体进行更新的策略为单状态的学习策略,状态对应系统本身,在学习过程中状态始终保持不变,动作对应词典本身。单状态的学习策略在规范空间较大时无法保证产生社会规范。针对该问题,本文提出将词典表的生成过程建模为马尔科夫决策过程,状态对应词典表中的概念,动作对应词典表中的单词。在交互过程中,词典的动态演变可以模拟为马尔科夫博弈,智能体单独递增地改进每个概念对应的单词的值,从而实现规范空间的解耦,将单状态问题转变为多状态问题。在此基础上,本文提出了基于强化学习的多Q和多R两种学习策略。进一步引入师生机制和动态网络重连机制以加速社会规范收敛速度。实验证明本方法在社会规范涌现效率、规范质量等方面均优于最先进的方法。
其他文献
目标检测是计算机视觉中常见而具有挑战性的任务,传统的目标检测分为滑窗提取候选区域,提取相关特征和对特征分类三个过程。该方法存在的缺陷有滑窗时间复杂和窗口冗余,除此之外,手动设计的特征在目标多样性上没有很好的鲁棒性。深度学习技术不断发展,目标候选区域和相关特征可以通过卷积神经网络来提取,目标检测任务变成端对端的形式。深度学习的检测算法在速度和准确性上有了很大提升。天文学领域中,检测日冕暗化(Coro
数字图像作为信息的重要载体之一,在人们的日常生活、娱乐和工作中发挥着至关重要的作用。伴随着数字图像的广泛传播,人们对数字图像进行修改的需求愈加迫切,由此出现了各种图像编辑软件,如Photoshop、美图秀秀等。尽管这些图像编辑软件给人们带来了极大的便利,但是也给了不法分子可乘之机。如果这些虚假图像被用于媒体、科研、司法等领域,势必会引起恶劣的影响。因此,数字图像取证引起了研究人员的广泛关注。图像彩
三维人脸的有效表示以及重建在计算机视觉和图形学有着广泛的应用。三维人脸的表示,即是通过一定的算法得到三维人脸的高维特征数据,重建就是从高维特征数据中能够通过算法模型重建出对应的三维人脸。大多数存在的线性表示算法并不能有效的重建出高质量的三维人脸数据,尤其是对于面部细节的处理比较粗糙,而最新的非线性表示方法不太适用于实际三维形状。三维人脸的表示和重建能够给人脸识别、机器情感表达等方向提供该技术支持,
深度学习技术在近些年来发展迅速,而使用深度学习技术开发的系统在各个领域被广泛应用并表现出优秀的能力。但是深度学习系统中可能存在一些缺陷,这些缺陷会使深度学习系统在某些输入下作出错误决策,导致严重后果。因此,深度学习系统的测试受到越来越多的关注。深度学习系统可被分为深度学习模型和深度学习库两部分,目前大部分深度学习测试的研究针对的是深度学习模型,很少有研究针对深度学习库进行测试。由于深度学习库被众多
近年来,深度神经网络取得了突破性的进展,如今在生活中的各个领域都得到了广泛的应用,比如图像分类识别、人脸识别、语音识别等。随着对网络结构和损失函数的不断优化,深度神经网络显著的改善了各种复杂的分类任务的性能。损失函数是深度学习中不可或缺的一部分,而对于不同的任务,有各种各样的损失函数,如MSE,BCE等。关于损失函数的性能有很多研究。一个好的损失函数理论上应该能够使得数据集中相同类别的特征的分布更
基于竞争抑制免疫层析原理,开展茶叶中草甘膦快速检测试纸条的研制。采用柠檬酸三钠还原氯金酸制备了20 nm胶体金颗粒,然后以胶体金为标记物制备草甘膦单克隆抗体-胶体金偶联物,以硝酸纤维素膜为固相载体,包被草甘膦半抗原-卵清蛋白偶联物为检测线、羊抗兔二抗为质控线,建立草甘膦的胶体金快速检测试纸条。同时优化了胶体金最适pH值、抗体最佳使用量、试纸条材料的型号,最终确定胶体金溶液的pH值为7.5,最佳抗体
运动目标的检测也就是人们常说的追踪问题,它是计算机视觉的重要组成部分。其相关的方法有很多种,其中光流法描述的是图像中像素点灰度值的变化趋势,也就是像素点的运动速度矢量场。在过去的几年中,深度学习在计算机视觉和自然语言处理等各种问题上都取得了很好的效果。而随着卷积神经网络的理论逐渐成熟,其相关研究逐渐深入到光流特征图评估的领域。本文提出了一种称为快速光流单元的网络子结构,它使原网络能够通过一种快速并
随着互联网时代的到来,视频的制作以及传播越来越便捷,视频数据大规模增长,拍摄视频逐渐成为了很多人分享生活内容的一种方式,但同时也产生了大量重复视频。视频内容具有一定的经济价值,视频盗版的行为损害了视频制作方的利益,同时也会增加视频网站的带宽和存储成本,不利于视频平台的发展。现今视频网站会根据用户喜好推荐视频,推荐重复的视频会极大影响用户的观看体验。因此需要借助计算机技术识别重复视频。本文提出了一种
人工智能关注智能体的智能行为,比如在战略性遭遇战中打败人类或者在认知任务中胜过人类。联盟博弈可以用来模拟经济、政治和许多其他社会领域中出现的各种问题,这是一种混合动机(竞争和合作)博弈,其中参与者通过战略谈判来决定组成什么联盟以及如何在联盟成员之间分配收益。虽然联盟博弈理论中存在大量的工作,但联盟形成的过程却很少受到关注,特别是当智能体与人类交互而不是与其他自治主体交互时的联盟过程。人工智能在此类
交通速度预测是智能交通系统中必不可少的环节。由于交通环境的复杂性,预测未来的交通速度十分困难。已有文献中提出使用支持向量回归(SVR)、回归神经网络(RNN)等多种机器学习模型进行交通流预测。然而,对于交通流的预测,尤其是对多步交通速度的预测,目前有关使用集成模型解决的研究较少。集成模型通过对多个基模型的组合,可以提高模型的泛化能力和准确率。但目前的集成组合方式比较单一,例如使用平均集成,加权集成