论文部分内容阅读
在现实世界的一些生产加工企业中,存在一类由生产加工站作为加工主体的生产线,其中,加工站由传送带输送工件进行加工,这样的一类系统称为传送带给料生产加工站(Conveyor-serviced production station,CSPS)。由于专业化、规模化和集约化生产的需要,这些生产线往往配有多个CSPS,称为多站点CSPS系统。若将这些站点视为可以学习的Agent,则构成一个多Agent系统,其优化目标是通过合理选择每个站点的look-ahead控制策略,实现整个系统的工件处理率最大。
在站点串行分布的CSPS系统中,上游站点的决策对下游所有站点的运行都将产生影响,但在没有信息交互的情况下,下游站点的决策对上游站点却不产生影响,因而不利于站点间的协作和负载平衡。因此,文章通过引入反应扩散思想,将站点与其后紧邻的站点进行信息交互,即将后者的状态信息通过代价函数反馈到前者。另外,由于各站点的决策时刻不同步,为异步决策模式,而常用的多Agent算法,如Nash-Q等,一般基于同步决策框架,故难以应用到本系统。由于Wolf-PHC算法的Q值学习不需要求解均衡解,因此论文结合性能势理论,给出了一种适用于平均和折扣两种性能准则的Wolf-PHC多Agent学习算法。该算法既可有效解决多站点CSPS系统的异步决策问题,又可通过站点间的逐级信息反馈,来提高系统的协作能力,改善学习优化性能。
其次,由于多站点CSPS系统本质上是一个离散事件动态系统,其特点是系统的运行由一系列离散的事件驱动。因此,论文将系统的策略定义在事件上,并结合性能势理论,给出了两种性能准则下统一的基于事件驱动的在线Q学习算法。实验结果表明,与基于状态变化的Wolf-PHC学习方法相比,该算法可有效提高系统的工件处理率。