论文部分内容阅读
马尔可夫决策过程是概率论的一门分支,亦是随机运筹学、随机系统最优控制的一门分支,对其研究一直非常活跃,在理论与应用方面均取得了很好的成果。马尔可夫决策过程的核心问题是寻找一个最优策略?,使得系统在某种最优准则下达到最优。在传统的马尔可夫决策过程的研究中,所采用的策略是状态的函数,并且多数情况下是在平稳策略范围内考虑问题。但是,许多实际问题中,策略并不是状态的函数,如已知状态下,策略是在给定行动空间上按某一分布随机取值。因此,传统马尔可夫决策过程的局限性导致马尔科夫决策过程不能解决实际面临的这类不确定问题。基于此背景,本文定义一种改进的马尔可夫决策过程并进行相关性质的研究。 本文的工作如下: (1)给出改进的马尔可夫决策过程的数学定义,探讨其马氏性与极限行为,并在理论方面证明改进的马尔可夫决策过程的平稳分布的存在性; (2)利用平稳分布的存在性和遍历性定理来证明值函数的收敛性; (3)给出最优方程和最优概率分布的数学定义,为下一步的求解奠定基础。