论文部分内容阅读
实际生活中的许多序贯决策问题,如柔性制造系统、交通指挥系统、排队系统等,都可以模型化为Markov决策过程(MDP)。出于实际应用的需要,MDP的优化控制已成为控制理论界的研究热点问题之一。MDP作为一个复杂的离散事件系统,尤其是对于存在“维数灾”和“模型灾”问题的系统,其管理与控制问题难以用一般的常规方法来解决。性能势理论的逐步完善为Markov决策过程的优化控制提供了一个较为完整的框架,在此基础上论文重点研究了MDP基于性能势强化学习的一类优化方法。 针对传统的理论优化方法如策略迭代、数值迭代不能适用于大规模系统的问题,我们采用仿真方法。在样本轨道仿真的基础上,利用神经网络进行强化学习仿真逼近系统的性能势,进而对系统进行优化。文中主要考虑了两种强化学习方法:Monte-Carlo方法和即时差分(TD)方法,分别给出了MDP基于Monte-Carlo仿真的NDP优化方法和基于TD(0)学习的NDP优化方法。具体地,给出了基于样本轨道仿真的策略迭代算法和Critic模式下的神经元策略迭代算法,研究了存在每步逼近误差和改进误差情况下的性能误差界问题。并分别讨论了平均代价准则和折扣代价准则下MDP优化的参数化TD(0)学习规则和参数改进公式,建立了基于TD(0)学习的Critic模式下的NDP优化算法,另外从性能势在样本轨道上的定义出发,给出了两种性能准则下统一的性能势TD(0)学习公式,以及建立在参数TD(0)学习基础上的统一的NDP优化方法。 对于现实中一类更为广泛的半Markov系统(SMDP),论文通过一个等价无穷小生成子的概念,定义了SMDP的一个α-一致化Markov链,利用它们性能测度和性能势之间的一些重要关系,把SMDP的优化转化成一致化链来实现,研究了折扣准则和平均准则下SMDP的优化控制问题。 文章以一个SMDP数值实例来说明相关优化方法的应用,研究结果具有一定普适性,可以运用到广泛的一类Markov系统或半Markov系统中。