论文部分内容阅读
摘要:本文以多智能体系统为研究对象,研究应用强化学习智能获取多智能体系统的行为策略,其中关键问题主要包括空间泛化与学习降维两个方面。最初,强化学习理论及其相关定义是以离散环境为基础展开讨论的,而实际应用环境的内在连续性大大地限制了强化学习的适应范围,使得空间泛化成为提高强化学习的实用性的一个重要步骤。同时,随着多智能体系统理论研究的进展,强化学习理论也从简单的单智能体强化学习发展到复杂的多智能体强化学习。然而,在多智能体系统环境下,学习和存储空间将随着智能体个数的增加而呈指数级增长,“维数灾难”问题更加突出,导致学习效率低下,甚至破坏学习的收敛性。本文针对多智能体强化学习中的空间泛化与学习降维两个关键问题进行研究。一方面,通过建立状态值函数模型、状态-动作对值函数模型、策略函数模型分别实现状态空间、动作空间、策略空间的泛化。另一方面提出一种基于联合状态-个体动作的降维Q函数定义,实现学习空间与存储空间的双重降维,同时采用基于模型的学习方法提高学习效率。首先,根据强化学习基本定义,结合多智能体系统应用环境,讨论多智能体强化学习的一般框架及其相对应的典型算法。分析多智能体强化学习中泛化与降维这两个问题的本质,并给出解决问题的总体思路与理论指导。其次,假设已知环境联合奖赏函数、非学习智能体执行静态稳定策略,在定义降维跟踪学习值函数的基础之上,提出一种基于高斯回归的连续空间多智能体跟踪学习算法。通过高斯回归方法建立值函数模型实现空间泛化,采用基于模型的学习方法提高学习效率,并从时间复杂度、空间复杂度两个方面分析算法性能。再次,为进一步扩展算法的适应性,突破上述假设条件,提出改进型多智能体连续空间基于模型的跟踪学习算法。通过观察环境对系统的联合鉴赏与记录个体历史鉴赏,采用一种新型的个体鉴赏函数迭代逼近方法,获取智能体个体鉴赏函数。此外,在线建立实时的行为策略模型,用于改进学习样本空间的更新方法。然后,在MAS MBRL-CPT算法的基础上,引入基于分时学习的协调机制,使得所有智能体均能通过交替学习轮番更新自己的响应策略,引导合作策略的持续优化,最终实现同时学习功能,并形成最优合作策略。最后,利用Multi-Cart-Pole与Line-up平衡控制系统仿真验证所提算法的正确性和有效性。