论文部分内容阅读
多智能体协作机制能够使多智能体系统在没有外来监督和指导的条件下通过智能体之间的自主协商分配任务、完成任务;其次在任务或环境发生变化时能够自适应地调整到符合新任务和环境的要求;并且合作与协调机制还具有学习功能,使智能体在学习其它智能体行为的特点的基础上作出更好的决策,提高任务执行的效率。在多智能体合作完成复杂任务的过程中,单个智能体的最优动作不仅取决于环境和任务,更多地依赖于其它合作者采取的行动。对策论就是研究行为相互影响、利益有所冲突的多个行为主体之间如何最优决策使个体利益最大化的决策方法。近年来,在多智能体领域中基于对策论的最优均衡思想算法引起了广泛关注。本文提出了一种基于演化博弈论的合作意义下的鹰鸽博弈模型,并在该模型基础上提出了反思一模仿算法,以使应用该算法的群体的总收益最大,并可以收敛到一个进化稳定的均衡解。这种基于进化稳定策略的算法获得了越来越多的关注,因为它不仅为多智能体系统给出了一个稳定的最优解,而且部分地解决了传统博弈论中均衡选择的问题。但是由于进化稳定策略是一个动态的稳定过程,群体中每个智能体所采用的策略都可能会变化,因此收敛的稳定程度不是很高,并且收敛时间较长。为解决以上问题,我们通过引入强化因子以加强策略的影响,并进一步提出了反思-强化算法和反思模仿强化算法,这两种算法提高了系统整体的自适应性和稳定性。通过对“觅食”任务的仿真实验证明了本课题所提出的多智能体协作算法的有效性。仿真结果表明本文提出的基于演化对策论的协调机制可使多智能体通过自适应的学习调整收敛到一个演化稳定均衡,使得整个多智能体系统的能够有效地协作。