论文部分内容阅读
离散事件动态系统(DEDS)是实际生活中广泛存在的一类人造系统,而半Markov决策过程(SMDP)是这类系统建模的主要方法之一。为了适应对于大状态空间离散事件动态系统优化控制的需要,论文重点研究了建立在强化学习(RL)基础上的神经元动态规划(NDP)方法在SMDP性能优化中的应用。 性能势理论在SMDP的性能分析和研究中起着重要的作用。基于性能势理论及Bellman最优方程,很容易建立平均代价和折扣代价性能准则下的最优性方程,称之为基于性能势的Bellman最优方程。解此类方程可以采用理论的计算方法,如值迭代,策略迭代等,系统采用查表的方法获取控制信息,然而由于现代DEDS多为复杂的大状态空间系统,在对其进行理论求解时,内存需保存大量的信息,占用较多的存储空间,甚至会在大量矩阵求逆运算的时候,出现内存溢出的现象,造成问题不可解,从而产生所谓的“维数灾”(curse of dimensionality)问题。因此,理论的方法在大状态空间DEDS求解中不可行,需要考虑基于仿真的方法。而建立在强化学习基础上的NDP方法是解决上述问题的有效方法,该方法利用某种函数结构或网络结构逼近性能函数或策略,内存中只需保存少量的网络参数,从而起到了节省内存空间的作用。 NDP方法主要有critic、actor和actor-critic三种模式。文章主要研究了actor和actor-critic模式下的NDP方法。在两种模式下的优化过程中,我们首先将SMDP转化成等价Markov决策过程(MDP),继而转化成其等价一致链(uniformized chain)来研究。在actor模式下,我们利用神经元网络逼近策略。首先基于一致链的单样本轨道,进行性能势的在线TD学习,其学习值作为策略评估的手段;基于此学习值,再进行网络参数即策略参数化学习,求解(次)最优策略。在网络训练中,我们给出了负梯度下降法和样本训练法两种参数改进方法。而在actor-critic模式下,我们利用两个神经元网络分别逼近性能势和策略。两个网络的参数改进方法均采用负梯度下降法。整个优化算法类似于actor模式。此外,我们建立了两种模式下平均性能准则和折扣性能准则下统一学习的方法。文章中针对actor和actor-critic模式列出了数值例子,给出了实验结果。 呼叫接入控制(CAC)是网络通信中常见的问题,其单节点呼叫接入控制问题可以转换为Markov决策问题来研究。同样,CAC系统中的大状态空间可导致“维数灾”。我们将NDP方法引入呼叫接入控制问题的研究当中,分别研究了critic、actor和actor-critic三种模式下的优化问题。在这