半马氏决策过程中的首达目标准则

来源 :中山大学 | 被引量 : 0次 | 上传用户:tongxu1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文致力于研究半马氏决策过程中的几个首达目标准则,包括首达目标期望准则、风险概率准则、首达目标概率准则和受约束首达目标准则。与通常的无限阶段期望折扣准则和平均准则不同,首达目标准则关注的是系统首次到达某些状态集前的性能和行为,具有丰富的实际背景和应用意义。然而,据我们所知,首达目标准则在半马氏决策过程中还没有文献研究,本文首次在半马氏决策过程中研究这些准则。我们针对这些首达目标准则,得到了各准则下的最优策略存在性条件及其计算方法.全文分为六章,详情如下。   第一章为综述,介绍半马氏决策过程的历史背景和发展现状,正式引入半马氏决策过程的模型、相关概念和常用的最优准则,并概述本文的选题依据、研究内容和主要结果。   第二章讨论可数状态半马氏决策过程的首达目标期望准则,即优化目的是最小化系统到达目标状态集前的期望总费用。对于这个准则,已有文献在离散时间马氏决策过程和连续时间跳马氏决策过程中研究,本章首次在更一般的半马氏决策过程中研究这个准则。我们考虑非负的费用率函数,即其有下界但不一定有上界,这比已有文献(关于离散时间和连续时间跳马氏决策过程首达目标期望准则的工作)要求报酬或费用函数有界的条件宽松.不同于上述已有文献利用不动点理论建立最优方程,我们利用最小非负解方法在适当条件下建立了最优方程和最优策略的存在性,并得到最优策略的一些性质和计算值函数的值迭代算法。由于我们采用的是最小非负解方法而不是不动点理论,本章不需要类似于已有文献保证动态规划算子为压缩算子的条件。在本章最后,我们说明半马氏决策过程的首达目标期望准则可退化为离散时间马氏决策过程和连续时间跳马氏决策过程的首达目标期望准则。   第三章研究可数状态半马氏决策过程的风险概率准则,即优化目的是最小化系统首达目标状态集的时间不超过给定阈值的风险概率.对于这个准则,已有文献的工作集中在离散时间马氏决策过程和连续时间跳马氏决策过程中,本章首次在更一般的半马氏决策过程中研究这个准则.我们引入了比已有文献(关于离散时间和连续时间跳马氏决策过程风险概率准则的工作)更广泛的新策略类,其不仅依赖于通常的状态和行动,也依赖于阈值.在这个新策略类中,我们刻画风险函数和值函数的特征,用逐步逼近方法证明值函数满足最优方程,并进一步得到最优策略存在性条件。由于我们考虑的策略类比已有文献的策略类更一般化,本章得到的最优策略存在性条件比已有文献(关于离散时间和连续时间跳马氏决策过程风险概率准则的工作)的结果宽松很多.另外,也给出了分别用于计算值函数和最优策略的值迭代和策略迭代算法.我们用两个例子说明风险函数的基本特征和值迭代算法计算值函数的过程。   第四章考虑Borel状态空间和行动空间的半马氏决策过程,优化准则是首达目标概率准则,即优化目的是最小化系统首达目标状态集前所产生的总报酬不超过给定水平的概率.在目前文献中,关于首达目标概率准则的工作集中于离散时间马氏决策过程,在更一般的半马氏决策过程中还没有研究,本章首次在半马氏决策过程中研究这个准则.我们引入不仅与状态和行动有关,也与报酬水平有关的策略类,然后在“紧-连续”条件下,利用半马氏决策过程的模型特征推演得到值迭代算法.在值迭代算法的基础上,我们进一步建立最优方程和最优策略的存在性,并得到加在模型原始数据上从而易于验证的最优策略存在的充分条件.值得指出的是,本章考虑一般的Borel状态和行动空间,不同于已有文献(关于离散时间马氏决策过程首达目标概率准则的工作)考虑可数状态和行动空间的情形,“紧-连续”条件对本章结果是必要和基本的.我们用一个数值算例说明本章结果。   第五章讨论可数状态半马氏决策过程的受约束首达目标准则,即优化问题是在系统到达目标状态集前的期望总费用不超出给定约束值的策略类中,寻找使系统到达目标状态集前的期望总报酬最大的策略.据我们所知,无论是在离散时间马氏决策过程中,还是在连续时间跳马氏决策过程或半马氏决策过程中,这个准则都还未见文献研究.本章考虑半马氏决策过程的受约束首达目标准则.在行动空间为Borel空间,报酬/费用率可能既无上界也无下界的假设下,我们给出保证约束最优策略存在的条件,并说明约束最优策略至多在一个状态随机化.与已有文献关于标准的受约束无限阶段期望折扣准则的结果相比,我们的最优性条件仅加在非目标状态集上而不是整个状态空间,从而是较弱的。另外,我们的结果对无折扣情形直接成立,而不需要引入其它任何条件。我们用一个维修系统的例子说明本章的条件。   第六章总结本文工作,并展望进一步的工作。   总的来说,半马氏决策过程是一类状态逗留时间允许服从任意概率分布的马氏决策过程,可以描述在随机时间点上采取决策的许多控制优化问题,具有相当的广泛性。基于此,本文在半马氏决策过程中研究富有实际背景的首达目标准则,着重探讨这些准则下的最优策略存在性及其计算方法,得到了满意的结果。一方面,在理论上,本文首次对半马氏决策过程的首达目标准则进行研究,丰富了半马氏决策过程的最优准则,完善了半马氏决策过程的理论;另一方面,在应用上,由于半马氏决策过程的一般性以及首达目标准则很好的实际背景,本文的结果具有广泛的潜在应用价值。
其他文献
本文研究了C*-代数中的由林华新提出的一种正元比较。总结了这种正元比较的基本性质及其等价定义。作为应用,我们证明了迹拓扑秩的几个等价定义。  
目前,我国的证券投资基金关联交易的法律规制还存在许多不完善之处。《中华人民共和国证券投资基金法》(以下简称《基金法》)对关联交易的定义十分不明确,面对目前中国的经济
基于Phillips的光滑化思想,在第一类算子方程和第二类算子方程间建立同伦关系,提出拟光滑化方法,并对光滑参数的选取进行一定研究。数值实验结果表明,对模拟真解振荡稍剧烈的问题