论文部分内容阅读
多智能体系统(Multi-Agent System,MAS)是分布式人工智能(Distributed Artificial Intelligence,DAI)的一个重要分支。多智能体系统是多个智能体组成的集合,它的目标是将大而复杂的系统建设成小的、彼此互相通信和协调的,易于管理的系统,从而实现个体之间的冲突消解与协同合作。分布式控制方法具有个体局部交互、成本低、鲁棒性强的优点,因而多智能体系统通常采用分布式控制的方式来实现系统协同功能。另一方面,图模型可以简洁有效地表示多智能体系统中复杂的依赖关系。将每个节点代表多智能体系统中的个体,图模型可以有效地表征局部状态观察、行为选择与奖赏接收(系统的目标是最大化所有节点的奖赏之和),因此基于图模型的分布式控制对于多智能体系统研究具有重要的意义。基于试错的学习行为是智能体与环境进行交互的主要方式之一,本文主要研究基于图模型的分布式协同学习,将图模型的关系表征能力与个体的局部学习交互有效的结合起来,从而以最小的计算代价实现最优或者近似最优的系统功能。本文主要包括以下两个研究内容:本文首先研究了基于分布式值函数(Distributed Value Function,DVF)的多智能体协同学习方法。该方法允许每个智能体将自己的值函数(所有节点未来奖赏的权重和的预估)发送给其邻居节点,这样不仅考虑了直接邻居节点对智能体行为选择的影响,同时还考虑了其他节点对智能体的间接影响;由于每个节点在系统中的位置重要性不同以及在学习过程中表现的好坏都会对其邻居节点产生不同的影响。本文提出了自适应权重函数的DVF,并将此方法与现有的分布式强化学习方法在电力系统电压分配问题中进行比较,验证了该方法的有效性。本文的第二个工作是研究了基于回报传播的分布式协同学习方法。该方法将稀疏协同学习方法与协同图中的消息传递算法相结合,利用相应的协同图将全局值函数分解为局部值函数的线性结合,并通过变量消除算法或者Max-Plus算法来计算最优联合行为,从而快速地找到使系统整体奖赏最高的最优策略或近似最优策略。本文实现了基于回报传播的分布式协同学习方法,并将该方法应用于单状态问题和分布式传感器网络问题中,验证了该方法的有效性。