受约束Markov决策过程基于性能势的优化算法

来源 :第二十四届中国控制会议 | 被引量 : 0次 | 上传用户:zhoudm2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在状态转移矩阵未知的条件下,研究了一类带有平均代价约束的Markov决策问题.利用性能势可以由一条样本轨道仿真估计的特性,给出了一种基于Lagrange乘子法的在线优化算法,并在一定条件下,证明了算法的收敛性.
其他文献
本文提出一种状态反馈控制方法来实现时滞系统的鲁棒优化控制.系统的设计方法包括:用高阶分时模型来逼近时滞环节:以新型高阶Bunerworth最优传递函数为目标函数来设计状态反
培养具有竞争力的创造型人才是时代的需要,是教育面向新世纪的重任.本文介绍了我校从创新教育观念、创新教育制度、创新教育内容、创新教学方法及创新教育环境建设等方面入手
会议
2001年3月本刊曾推出首届21佳“未来之星”的特别报道,今年,本刊在沿用去年评估体系的基础上对评估指标作了相应调整,并扩大了参评企业和评委的范围与数量.
期刊
1.再次强烈提示中国企业,必须高度重视现金地位,保障企业具有足够的现金储备rnSARS传播以来,一些行业受到了较为强烈的冲击,这时候,现金的地位将会凸显出来.你有足够的现金储
期刊
在高科技产品市场,价格通常扮演一个催生、催死,催动生命时钟运转的关键角色.
期刊
对成本控制矩阵不确定随机二次控制问题进行研究,给出了成本控制矩阵不确定的随机二次保成本控制的定义.在假定相应线性随机系统均方稳定和精确能观测的条件下,利用随机分析
采用单一的Lyapunov矩阵变量是传统的基于LMI的混和H2/H∞控制方法保守性的主要来源.本文提出了一种基于扩展的LMI混合H2/H∞状态反馈综合方法,该方法通过引入新的附加变量,
本文讨论了连续时间线性范数有界不确定系统多目标保代价控制的极大极小法.所设计的状态反馈控制律,对所有允许的不确定性,保证闭环系统的稳定性,同时,在极大极小的意义下,优
会议
2002年,中国保险业进一步加快对外开放步伐,共批准6家外资保险公司进入市场.虽然年内没有新批内资保险公司,但是现有公司表现依然抢眼.除了中国人寿保险公司、中国人民保险公
期刊
本文针对闭环网络控制系统,在考虑网络数据传输可能发生丢包的情况下,提出了一类不确定切换系统模型.为了量化网络数据丢失的影响,根据网络特点给出了网络传输数据丢包率的数
会议