一类改进的马氏决策过程及其相关问题研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:ppmeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
马尔可夫决策过程是概率论的一门分支,亦是随机运筹学、随机系统最优控制的一门分支,对其研究一直非常活跃,在理论与应用方面均取得了很好的成果。马尔可夫决策过程的核心问题是寻找一个最优策略?,使得系统在某种最优准则下达到最优。在传统的马尔可夫决策过程的研究中,所采用的策略是状态的函数,并且多数情况下是在平稳策略范围内考虑问题。但是,许多实际问题中,策略并不是状态的函数,如已知状态下,策略是在给定行动空间上按某一分布随机取值。因此,传统马尔可夫决策过程的局限性导致马尔科夫决策过程不能解决实际面临的这类不确定问题。基于此背景,本文定义一种改进的马尔可夫决策过程并进行相关性质的研究。  本文的工作如下:  (1)给出改进的马尔可夫决策过程的数学定义,探讨其马氏性与极限行为,并在理论方面证明改进的马尔可夫决策过程的平稳分布的存在性;  (2)利用平稳分布的存在性和遍历性定理来证明值函数的收敛性;  (3)给出最优方程和最优概率分布的数学定义,为下一步的求解奠定基础。
其他文献
这篇论文主要讨论离散时间下带有利率的破产模型,该模型下净索赔过程符合AR(1)结构,利率过程符合Markov结构,文章的主要目的是要对该模型下的破产概率进行分析。本文首先介绍了L
本文我们主要利用Bernoulli数与调和数方法研究几个同余式猜想。对于素数p>3,我们证明了如下结果:  (i).(p-3)/2∑k=01/(2k+1)9k≡3qp(2)(mod p),  其中qp(2)是Fermat商(2p
在我们的日常生活中,气体的运动大多处于亚音速和超音速流运动状态,例如空气的运动,水的流动,飞机和航天飞行器的运动等等,探索亚音速和超音速流的运动规律也是流体动力学中的基本
数值微分问题是反问题研究的一个重要分支,它的基本定义是:已知近似函数在若干点的离散函数值,求它在某点的导数或高阶导数的近似值。数值微分问题是在Hadamard意义下是不适定问
自上世纪70年代以来,变点问题一直是统计学中的热门课题之一.目前,它不仅在工业质量控制领域里(最早产生变点问题的领域)有大量的应用,而且在经济、金融、医学、计算机等领域里也
随着利率市场化改革的逐步发展,我国商业银行更加注重业务战略转型,逐渐从单纯依靠存贷款业务为主的发展模式向存贷款业务与中间业务并重的模式方向发展。在中间业务中,银行理财
对称性是微博社交网络中最直观也是最重要的性质之一,研究微博社交网络的对称性变化规律,可以揭示微博社交网络用户节点之间的联系紧密程度。然而,目前已有的社交网络对称性研究