基于高斯回归的连续空间多智能体强化学习算法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:jyd965243
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
摘要:本文以多智能体系统为研究对象,研究应用强化学习智能获取多智能体系统的行为策略,其中关键问题主要包括空间泛化与学习降维两个方面。最初,强化学习理论及其相关定义是以离散环境为基础展开讨论的,而实际应用环境的内在连续性大大地限制了强化学习的适应范围,使得空间泛化成为提高强化学习的实用性的一个重要步骤。同时,随着多智能体系统理论研究的进展,强化学习理论也从简单的单智能体强化学习发展到复杂的多智能体强化学习。然而,在多智能体系统环境下,学习和存储空间将随着智能体个数的增加而呈指数级增长,“维数灾难”问题更加突出,导致学习效率低下,甚至破坏学习的收敛性。本文针对多智能体强化学习中的空间泛化与学习降维两个关键问题进行研究。一方面,通过建立状态值函数模型、状态-动作对值函数模型、策略函数模型分别实现状态空间、动作空间、策略空间的泛化。另一方面提出一种基于联合状态-个体动作的降维Q函数定义,实现学习空间与存储空间的双重降维,同时采用基于模型的学习方法提高学习效率。首先,根据强化学习基本定义,结合多智能体系统应用环境,讨论多智能体强化学习的一般框架及其相对应的典型算法。分析多智能体强化学习中泛化与降维这两个问题的本质,并给出解决问题的总体思路与理论指导。其次,假设已知环境联合奖赏函数、非学习智能体执行静态稳定策略,在定义降维跟踪学习值函数的基础之上,提出一种基于高斯回归的连续空间多智能体跟踪学习算法。通过高斯回归方法建立值函数模型实现空间泛化,采用基于模型的学习方法提高学习效率,并从时间复杂度、空间复杂度两个方面分析算法性能。再次,为进一步扩展算法的适应性,突破上述假设条件,提出改进型多智能体连续空间基于模型的跟踪学习算法。通过观察环境对系统的联合鉴赏与记录个体历史鉴赏,采用一种新型的个体鉴赏函数迭代逼近方法,获取智能体个体鉴赏函数。此外,在线建立实时的行为策略模型,用于改进学习样本空间的更新方法。然后,在MAS MBRL-CPT算法的基础上,引入基于分时学习的协调机制,使得所有智能体均能通过交替学习轮番更新自己的响应策略,引导合作策略的持续优化,最终实现同时学习功能,并形成最优合作策略。最后,利用Multi-Cart-Pole与Line-up平衡控制系统仿真验证所提算法的正确性和有效性。
其他文献
高超声速飞行器是一种新型航空航天飞行器,有着重要的军事价值和民用价值,近年来受到了各军事大国的广泛关注.高超声速飞行器系统具有多变量、强耦合、严重非线性等复杂特征,为
普适计算是继桌面计算模式后的新兴计算模式,它强调物理空间与信息空间的融合。随着普适计算的发展,利用情境感知技术为处于工作状态下的用户提供透明的计算服务己成为普适计
在换热站智能控制技术研究中,对温度的控制和系统的解耦能力代表着换热站控制水平。有许多算法虽然可以针对换热站解耦,但是这些算法却增加了计算的复杂度,实际应用的难度很大。
反恐防暴机器人是针对国内外日益严重的安全形势而能进行特种作业的机器人;可完成对复杂现场的侦察和探测,并进行简单的作业。国内著名的反恐防暴机器人——“灵蜥”,是由我国独
目标检测与跟踪是计算机视觉领域中一个热点课题,在交通情况监控、室内安全防护、公共安全预警等领域的应用极其广泛,该课题研究需要结合图像处理和模式识别相关知识。传统的检
关联分析是统计学的重要分支,源于统计学的创立时代。当前,关联分析仍然是多个领域的研究要点。尤其在统计信号处理当中需要计算信号之间的关联程度。为了能够定量的描述随机变
准确有效地对冶金企业副产煤气进行分配调度是企业合理利用资源,提高其节能降耗水平,提高生产效益,减少环境污染的关键。为了保证煤气管网正常运行,当前的企业生产实际当中多
重置控制方法属于混杂控制范畴。它是用一个切换面来触发控制信号的突变,这一点与目前流行的许多混杂控制策略相类似。然而,重置控制方法具有其独特之处,即在切换面的两侧使
相位超前迭代学习控制(Phase Lead-Iterative Learning Control, PL-ILC)和重复控制(Repetitive Control, RC)都是高精度的学习控制。这两种控制算法有一个共同的关键环节,即相位