【摘 要】
:
多智能体图形博弈是现代控制理论的重要研究课题,已经得到国内外众多学者的大量研究。对于每个智能体,一个合理的只依赖每个智能体可获得的局部信息的性能指标被定义。虽然可以通过解哈密顿-雅克比-贝尔曼(HJB)方程得到每个智能体的最优控制,但是在多智能体图形博弈中该方程组是耦合的,因此通过传统的方式解HJB方程往往是非常困难的,甚至是无法解决的。强化学习是机器学习的子领域,通过将强化学习和控制论相结合的方
论文部分内容阅读
多智能体图形博弈是现代控制理论的重要研究课题,已经得到国内外众多学者的大量研究。对于每个智能体,一个合理的只依赖每个智能体可获得的局部信息的性能指标被定义。虽然可以通过解哈密顿-雅克比-贝尔曼(HJB)方程得到每个智能体的最优控制,但是在多智能体图形博弈中该方程组是耦合的,因此通过传统的方式解HJB方程往往是非常困难的,甚至是无法解决的。强化学习是机器学习的子领域,通过将强化学习和控制论相结合的方式往往可以解决一些传统控制论方法解决起来很困难的问题。一些学者通过将强化学习与控制论结合的方式提出了一些基于强化学习的在线迭代算法,这些算法往往是通过在线迭代的方式在不需要系统矩阵的条件下完成了HJB方程的求解,避免了传统方法解复杂的HJB方程的过程。在近几年,很多基于强化学习方式的控制问题的研究结果已经被提出了,例如近几年提出的零和博弈问题,离散多智能体图形博弈问题,连续多智能体图形博弈问题,带有输入限制的多智能体图形博弈问题等。基于现有的研究成果,本文主要研究了带有输入限制的离散多智能体图形博弈问题。在该问题中,为了获得每个智能体的最优控制,解一系列耦合的HJB方程是必要的,但是使用传统方式解HJB方程是困难的,如果输入带有限制那么相关的博弈问题将会变得更加的复杂。在本文中,定义了一种只依赖于当前智能体可获得的局部信息的性能指标,基于该性能指标提出了一种被用于找到带有输入约束的动态图形博弈的在线迭代解的在线迭代算法。事实上,这个算法是通过在线方式找到贝尔曼方程的解,这个解应用了一个分布式策略迭代处理,每个智能体只利用了自己可以获得的局部信息,并且在该算法的实施过程中每个智能体使用了两个神经网络分别用来拟合值函数和控制策略。可以证明,在特定条件下每个智能体通过该算法更新自己的策略,最终所有的智能体控制策略将构成一个纳什均衡。
其他文献
“国际泉水文化景观城市联盟会议”于2019年9月在山东省会济南市召开。此次会议旨在通过一系列活动进一步扩大济南泉水在世界范围的知名度,提升济南的国际影响力。英国巴斯市议员马丁·威尔先生应邀来访参会。作者担任马丁·威尔先生此次行程的全程口译员。本报告即以此次口译实践为基础。口译活动本质上是一种交际活动,而译员作为会话双方的中间联络方,在交际过程中起到中枢作用。因此,译员在口译过程中交际策略的运用关涉
设E和F是Banach空间, B(E,F)表示从空间E到F的有界线性算子全体.当A∈B(E,F)具有有界的广义逆A+∈B(F,E)时, Nashed和Chen证明了一个很有用的定理:对任意满足T ? A < A+ -1的T,若使C-1(A,A+,T)TN(A) - R(A),则B = A+C?1(A,A+,T)是T的一个广义逆,且N(B) = N(A+)和R(B) = R(A+),其中C(A,A+
互联网技术的进步推动了社会变革,改变了人们的生活和生产方式。越来越多的办公人员在工作中开始运用包括编程在内的计算机科学技术。Python作为一门编程语言,广泛应用于多个领域。由于Python通用性强、用途广泛而适合各行各业人员使用,因此翻译Python学习指导书的需求也在不断增长。本报告基于笔者在浪潮集团实习期间所译的一本计算机科学指导书籍How to make mistakes in Pytho
本报告的翻译文本是一本名为《艺术家创业指南》(A Profitable Artist)的创业书籍。该书主要讨论了如何帮助艺术家创建并经营自己的公司。在彼得·纽马克提出的交际翻译与语义翻译理论指导下,译者成功克服了词汇层面与句法层面的翻译困难。在此报告中,译者首先介绍了此次翻译任务的背景与意义,然后分析了本书的语言特色。在确定本书的文本类型之后,开始翻译过程。译者详细描述了翻译的三个阶段,发现纽马克
本文利用共沉淀法制备了CaO :Eu3+ , CaWO4 :Eu3+, CaWO4 :Dy3+三种稀土掺杂的纳米晶粉体,并对其室温发射性质进行了讨论,分析了煅烧温度、稀土掺杂浓度等因素对样品发光强度的影响,本论文主要研究内容和得到的结论如下:1.使用共沉淀法成功的制备了CaO :Eu3+粉体,在室温下可观测到Eu3+离子的特征发射,分别为591nm和610nm跃迁。通过对不同煅烧温度下样品发射谱的
稀土离子由于其独特的电子层结构使得稀土离子掺杂的发光材料具有其它发光材料所不具有的许多优异性能。稀土发光材料具有发光亮度高、余辉时间长、发射光波长可调、无辐射无污染等优异性能特点,是新一代的发光材料,成为了目前国内外发光材料的研究热点。本论文的主要研究内容如下:1.运用高温固相反应法在弱还原气氛下1473K合成Ba2-xMgxSiO4:Eu2+(0≤x≤1mol%)荧光粉,用发光光谱和激发光谱,X
近年来,随着中非关系持续发展,中非之间各层次、各领域的交流合作不断开展。在此背景下,国际刑警组织西非地区中心局警务能力建设活动在济南举办。中外警官除了共同探讨一系列警务安全问题外,还共同体验了中国传统书法和绘画。本报告就是基于中国传统书法和绘画课程口译实践写成的。在众多研究口译的理论中,Daniel Gil提出的精力分配模型对口译实践及其教学产生了重大影响。该理论聚焦译员在口译过程中信息处理能力及
经过半个世纪的发展,地理信息系统经历了桌面端地理信息系统、嵌入式地理信息系统、网络地理信息系统等发展阶段,在全新的技术革新浪潮下,新的理论与技术体系不断涌现出来,如虚拟地理环境、三维地理信息系统等。虚拟地理环境以数据库和模型库为核心研究内容,其地学分析和地理建模理论还处于发展阶段。本文以地形建模为介入点,阐述了国外FaultFormation、MidPoint Displacement两种地形构建
卤蕨(Acrostichum aureum)和中华水韭(Isoetes sinensis)均为水生蕨类植物,但卤蕨属于真蕨类(Ferns)植物,是生长于海岸潮汐带滩涂的咸水或半咸水植物,中华水韭则属于拟蕨类(Fern-Allies)植物,为我国长江中下游地区的特有种,且其因对环境的适应能力极为脆弱,已濒临灭绝,被列为国家一级保护植物。本文选取这两种植物为试验材料,旨在通过比较它们在生活史各环节的形
自从伽罗华提出了置换子群的概念后,数学家们在它的基础上又提出了共轭置换子群、完全条件置换子群等一系列子群的定义.并且研究了它们对有限群的可解性等影响.之后,王燕鸣引入c-正规子群的概念,并研究了它对有限群结构的种种影响.还有一些工作者在此基础上又定义了弱c-正规子群、c-可补子群等等,研究它们的可解性、幂零性等. 2007年杨高才引入一个比c-正规子群更加广泛的概念-几乎正规子群,并研究具有几乎正