可数状态空间的平均成本马氏决策过程

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户：wMystarw

【摘要】

：

【作者】

：

张俊玉吴怡婷夏俐曹希仁

【机构】

：

中山大学数学学院,广东广州510275;中山大学管理学院,广东广州510275;香港科技大学电子与计算机工程系,中国香港

【出处】

：

控制理论与应用

【发表日期】

：

2021年11期

【关键词】

：

Markov decision process long-run average countable state spaces Dynkin's fo

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

具有可数状态空间的马尔可夫决策过程(Markov decision process,MDP)在平均准则下,最优(平稳)策略不一定存在.本文研究平均准则可数状态MDP中满足最优不等式的最优策略.不同于消去折扣(因子)方法,利用离散的Dynkin公式推导本文的主要结果.首先给出遍历马氏链的泊松方程和两个零常返马氏链的例子,证明了满足两个方向相反的最优不等式的最优策略存在性.其次,通过两个比较引理和性能差分公式,证明了正常返链和多链最优策略的存在性,并进一步推广到其他情形.特别地,本文通过几个应用举例,说明平均准则性能敏感的本质.本文的结果完善了可数状态MDP在平均准则下的最优不等式的理论.“,”For the long-run average of a Markov decision process (MDP) with countable state spaces, the optimal (sta-tionary) policy may not exist. In this paper, we study the optimal policies satisfying optimality inequality in a countable-state MDP under the long-run average criterion. Different from the vanishing discount approach, we use the discrete Dynkin\'s formula to derive the main results of this paper. We first provide the Poisson equation of an ergodic Markov chain and two instructive examples about null recurrent Markov chains, and demonstrate the existence of optimal policies for two optimal-ity inequalities with opposite directions. Then, from two comparison lemmas and the performance difference formula, we prove the existence of optimal policies under positive recurrent chains and multi-chains, which is further extended to other situations. Especially, several examples of applications are provided to illustrate the essential of performance sensitivity of the long-run average. Our results make a supplement to the literature work on the optimality inequality of average MDPs with countable states.

其他文献

鄂尔多斯盆地杭锦旗地区J58井区盒一段甜点储层特征及主控因素

一直以来,鄂尔多斯盆地杭锦旗地区二叠系下石盒子组一段(盒一段)致密砂岩气甜点储层的特征及主控因素不明确,制约着此地区天然气的产能.本文综合运用岩芯观察、铸体薄片、压汞实验及测井资料等方法,对鄂尔多斯盆地杭锦旗地区J58井区盒一段致密高产储层的岩石学特征、储层物性、沉积相及成岩作用进行研究,识别并划分研究区盒一段有利区沉积-成岩相类型,建立测井响应特征与沉积成岩相之间对应关系模式,探讨J58井区沉积微相控制型甜点发育规律及主控因素.结果表明,杭锦旗地区储层在整体致密的背景下仍发育较多甜点区;高产气区岩性以岩

期刊

甜点储层沉积微相成岩相下石盒子组主控因素杭锦旗地区

不规则工作面开采地表沉陷线积分预计方法

沉陷预计方法对于预判煤层开采诱发的负面影响十分重要.概率积分法是开采沉陷预计的重要方法,但对于不规则工作面开采,其预计精度有待提高.本文针对这一问题,利用格林公式(Green formula)对概率积分法公式进行积分转换,将对工作面的积分转换为对采区边界的线积分;将边界简化分割为多条直线段,分别对各直线段作积分计算;通过叠加计算完成地表任意点及地表沉陷盆地移动变形预计;最后基于某实例进行了应用研究,验证了本文方法的有效性,相比概率积分法,本文提出的线积分法预计精度提高了23％.

期刊

开采沉陷不规则工作面线积分预计方法积分转换精度

矿井雷达波走时层析成像精度的影响分析及参数优化研究

矿井工作面内的隐伏灾害源是矿井安全生产的主要隐患,雷达波走时层析成像技术可实现大跨度开采区内隐伏灾害源的高精度探测.本文首先提出了层析成像精度评价标准,包括反演速度场和实际速度场速度差的方差、反演异常体中心偏离程度和大小偏离程度;其次通过正演模拟分析不同点间距、不同出射角度和不同反演网格参数对矿井地质雷达层析成像精度的影响规律,并对观测系统及反演参数进行优化;最后应用优化参数进行矿井雷达波走时层析成像探测实验,结果表明,在100 m跨度范围内可有效进行异常体的探测.本研究为矿井大跨度工作面内隐伏灾害源的快

期刊

矿井隐伏灾害源地质雷达走时层析成像精度分析参数优化

面波多道分析法精细探测浅部煤层采空区应用研究

为精细探测浅部煤层采空区分布范围,在相移法中引入低频聚焦因子,提出一种低频聚焦型相移法,其具有在短接收排列上提取低频频散能量的优势.模拟结果表明:该方法显著改善了频散能量在低频端的聚焦性,扩展了可拾取的频带范围,增大了探测深度,缩短了计算频散能量所需的排列长度,提高了面波多道分析方法(MASW)的横向分辨率.浅部煤层采空区实测试验结果表明:采用低频聚焦型相移法提取频散能量,通过MASW方法获得了高精度的横波速度水平切片,可以清晰识别出采空区范围、保安煤柱位置及其几何形态.证实了低频聚焦型相移法可提高MAS

期刊

煤层采空区面波多道分析低频聚焦型相移法频散能量横波速度

准格尔煤田高铝煤物质组成及成因

利用煤岩学、矿物学和地球化学等研究方法,在分析准格尔煤田的构造背景和聚煤环境的基础上,研究了准格尔煤田6号煤层的煤岩煤质特征、煤和夹矸中无机矿物组成、分布及赋存特征,并探讨其成因.研究表明,6号煤层有机显微组分中惰质组、镜质组、壳质组平均含量分别为59％、28％、13％,与华北其他地区晚古生代煤相比,其中的惰质组含量偏高,反映6号煤层形成时地表水供给充分;煤中无机显微组分及夹矸中主要矿物为高岭石和勃姆石,还有少量的石英、方解石、菱铁矿、黄铁矿、硬石膏、锐钛矿和磷锶铝矾等;6号煤层中部富集大量勃姆石,上部和

期刊

准格尔煤田高铝煤高岭石勃姆石

南方典型煤田不同埋深小断层识别规律研究

小断层是影响煤矿安全高效开采的重要因素.近年来有关小断层的地震波识别方法取得了长足的进步,但对煤田落差5m以内小断层的识别仍是一大难点.南方煤田一般地形复杂、断裂发育,为推进南方煤田小断层的地震勘探研究,本文选取南方典型煤田——贵州省六盘水煤田作为研究区,通过建立煤系地层地震物理模型进行地震数据采集、处理与解释,从地震波运动学和动力学的角度对不同埋深落差分别为5m、3m和1m的小断层进行识别.研究结果表明:由于煤层处于地表低速层,对于落差1～5m的小断层采用地震波运动学方法难以识别,而应用动力学方法提取多

期刊

南方煤田物理模型小断层埋深落差属性分析

前言

为庆祝中国自动化学会控制理论专业委员会(TCCT)成立60周年, TCCT委员会在《控制理论与应用》期刊组织“控制理论专业委员会(TCCT)60周年”专刊,介绍当前控制理论与应用的前沿热点,展示TCCT专委会的最新研究成果.

期刊

矩阵方程的分布式求解算法研究概述

近年来,随着大规模网络的兴起和分布式优化理论的广泛应用,矩阵方程的分布式求解算法研究也受到了越来越多的重视.矩阵方程的计算求解在理论和工程领域都有着重要的意义.在多智能体网络下的分布式计算问题中,矩阵方程中的数据信息按照各种方式进行划分,单个智能体只能够获取其中的一份数据,然后通过与其邻居智能体进行信息交互,最终合作求解出不同类型的符合方程要求的解.本文集中讨论了近几年来针对线性代数方程、几类不带约束和带约束线性矩阵方程、以及其他矩阵相关的分布式计算和求解问题,介绍了投影一致方法、转化成分布式优化问题再求

期刊

分布式优化矩阵方程多智能体网络分布式算法

基于输出反馈和滑模控制的一类二阶非线性系统有限时间镇定方法

本文研究了一类具有不确定非线性动力学和未知外部扰动的二阶非线性系统的全局有限时间输出镇定问题.首先,提出了一种全局状态反馈有限时间控制器,实现了二阶非线性系统的有限时间镇定.为了解决只有系统输出可用这种更有挑战性的情况,采用了一种新颖的设计思想,即非分离原理.构造了一个有限时间收敛的状态观测器来估计未知状态.在此观测器的基础上,提出了一种基于输出的有限时间复合控制器.基于李雅普诺夫方法,证明了整个闭环系统的全局有限时间稳定性.仿真结果表明了理论的有效性.

期刊

有限时间控制输出反馈非分离原理不确定非线性系统未知外部扰动非连续控制

任意相对阶下非线性切换系统的事件触发漏斗控制

针对一类具有任意相对阶且带有部分非输入到状态稳定逆动态的非线性切换系统,提出一种动态事件触发漏斗跟踪控制方案.首先,引入一个虚拟输出将任意相对阶的非线性切换系统转换为相对阶为一的非线性切换系统.其次,设计各子系统的事件触发漏斗控制器和切换的动态事件触发机制,解决候选事件触发漏斗控制器和子系统之间的异步切换问题,所提方案消除已有文献中为所有子系统设计共同控制器带来的保守性.在一类具有平均驻留时间切换信号的作用下,保证切换闭环系统的所有信号都是有界的,且跟踪误差一直在预设的漏斗内演化,并排除采样中的奇诺现象.

期刊

非线性切换系统漏斗控制平均驻留时间事件触发控制

可数状态空间的平均成本马氏决策过程

与本文相关的学术论文