受约束Markov决策过程基于性能势的优化算法

来源 :第二十四届中国控制会议 | 被引量 : 0次 | 上传用户：zhoudm2005

【摘要】

：

本文在状态转移矩阵未知的条件下,研究了一类带有平均代价约束的Markov决策问题.利用性能势可以由一条样本轨道仿真估计的特性,给出了一种基于Lagrange乘子法的在线优化算法,

【作者】

：

李衍杰殷保群奚宏生

【机构】

：

中国科学技术大学自动化系,合肥,230026

【出处】

：

第二十四届中国控制会议

【发表日期】

：

2005年期

【关键词】

：

受约束决策过程性能势状态转移矩阵在线优化算法算法的收敛性样本轨道决策问题仿真估计乘子法证明特性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文在状态转移矩阵未知的条件下,研究了一类带有平均代价约束的Markov决策问题.利用性能势可以由一条样本轨道仿真估计的特性,给出了一种基于Lagrange乘子法的在线优化算法,并在一定条件下,证明了算法的收敛性.

其他文献

时滞系统的鲁棒优化控制

本文提出一种状态反馈控制方法来实现时滞系统的鲁棒优化控制.系统的设计方法包括:用高阶分时模型来逼近时滞环节:以新型高阶Bunerworth最优传递函数为目标函数来设计状态反

会议

时滞系统状态反馈增益阵最优传递函数设计方法状态观测器优化控制时滞环节目标函数控制方法抗扰性能高阶分时模型仿真结果方法设计鲁棒性

构建工科大学机械创新教育体系的探索与实践

培养具有竞争力的创造型人才是时代的需要,是教育面向新世纪的重任.本文介绍了我校从创新教育观念、创新教育制度、创新教育内容、创新教学方法及创新教育环境建设等方面入手

会议

“未来之星”数据报告

2001年3月本刊曾推出首届21佳“未来之星”的特别报道,今年,本刊在沿用去年评估体系的基础上对评估指标作了相应调整,并扩大了参评企业和评委的范围与数量.

期刊

现金流地位凸显

1.再次强烈提示中国企业,必须高度重视现金地位,保障企业具有足够的现金储备rnSARS传播以来,一些行业受到了较为强烈的冲击,这时候,现金的地位将会凸显出来.你有足够的现金储

期刊

健康的差异化管理

在高科技产品市场,价格通常扮演一个催生、催死,催动生命时钟运转的关键角色.

期刊

成本控制矩阵不确定的随机二次保成本控制

对成本控制矩阵不确定随机二次控制问题进行研究,给出了成本控制矩阵不确定的随机二次保成本控制的定义.在假定相应线性随机系统均方稳定和精确能观测的条件下,利用随机分析

会议

保成本控制控制矩阵控制律线性随机系统随机分析理论凸优化问题矩阵不等式控制问题均方稳定转化证明设计求解观测

混和H2/H∞状态反馈控制

采用单一的Lyapunov矩阵变量是传统的基于LMI的混和H2/H∞控制方法保守性的主要来源.本文提出了一种基于扩展的LMI混合H2/H∞状态反馈综合方法,该方法通过引入新的附加变量,

会议

混和矩阵变量综合方法控制器优化设计保守性状态反馈控制问题控制方法附加变量仿真验证处理方法多目标扩展

线性不确定系统多目标保代价控制的极大极小法

本文讨论了连续时间线性范数有界不确定系统多目标保代价控制的极大极小法.所设计的状态反馈控制律,对所有允许的不确定性,保证闭环系统的稳定性,同时,在极大极小的意义下,优

会议

保险行业

2002年,中国保险业进一步加快对外开放步伐,共批准6家外资保险公司进入市场.虽然年内没有新批内资保险公司,但是现有公司表现依然抢眼.除了中国人寿保险公司、中国人民保险公

期刊

不确定有损网络控制系统的保成本控制

本文针对闭环网络控制系统,在考虑网络数据传输可能发生丢包的情况下,提出了一类不确定切换系统模型.为了量化网络数据丢失的影响,根据网络特点给出了网络传输数据丢包率的数

会议

受约束Markov决策过程基于性能势的优化算法

与本文相关的学术论文