不确定SMDP基于性能势的鲁棒控制研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：lv53647678

【摘要】

：

半Markov决策过程(SMDP)是离散事件动态系统用于描述随机序贯决策问题的一类基本模型，其性能的分析和优化对许多现实系统具有重要的指导意义。在SMDP模型中，状态的转移概率和性

【作者】

：

程燕

【机构】

：

合肥工业大学

【出处】

：

合肥工业大学

【发表日期】

：

2007年期

【关键词】

：

半Markov决策过程性能势鲁棒控制策略迭代遗传算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

半Markov决策过程(SMDP)是离散事件动态系统用于描述随机序贯决策问题的一类基本模型，其性能的分析和优化对许多现实系统具有重要的指导意义。在SMDP模型中，状态的转移概率和性能函数是影响系统性能的两个重要因素。然而实际应用中，由于建模上的困难和外界环境的干扰，系统的状态转移概率往往难以精确得知，系统的即时性能也可能因某些不确定参数的影响而产生波动。为适应这类不确定SMDP系统在最优控制上的需要，本文在性能势理论的基础上研究了一类受不确定参数影响的SMDP鲁棒控制问题，着重讨论参数极坏情况下使系统性能达到最优的鲁棒控制策略求解算法。根据嵌入链结构的不同，SMDP可划分为遍历链、单链和多链三种模型。本文从最简单的遍历链模型出发，首先给出不相关不确定参数下的求解最优鲁棒策略的策略迭代算法，并讨论了策略迭代的收敛性；对参数相关的情况，本文详细介绍了遗传算法在SMDP鲁棒控制过程中的应用。在一般的多链模型中，由于多个常返类和瞬态的存在，要求解其最优策略是相当困难的。通过一些假设性条件的限制，本文研究了平均准则下一类特殊多链SMDP的最优性方程，并给出了相应的策略迭代算法。考虑到系统状态数目的增加将导致优化时间过长，为提高效率，本文在参数相关的多链鲁棒控制过程中引入并行遗传算法，通过多个处理机上的协同寻优来加速搜索，文中我们还详细讨论了迁移算子的两种具体实现方式。由于单链结构是多链的一种特例，上述有关算法也可运用于解决单链SMDP的鲁棒控制问题。文章通过一些数值例子来说明相关算法的应用，并根据实验结果分析了各种鲁棒决策算法的优化效果。

其他文献

基于SIP协议的VoIP系统的研究

随着计算机网络和通信技术的发展以及多媒体应用的深入和普及，VoIP技术已经成为通信领域的关键技术之一。本文的目的是通过研究VoIP中的信令协议SIP，重点是SIP协议中信息处理的

学位

会话初始协议VoIP系统协议栈服务器终端信息处理非法信息包

P2P-VT：一种基于虚拟拓扑的点对点模型的研究

网络结构模型构建是P2P核心研究领域之一，其中结构化P2P系统把计算机组织成一个具有良好的连接和路由规律的结构化拓扑来进行资源共享和查询，但是网络环境的动态性导致系统维护

学位

一致性哈希结构化网络虚拟网络拓扑路由二叉树P2P-VT点对点模型网络查询性能

基于强化学习的多智能体协作与应用的研究

多Agent系统(Multi-Agent System，MAS)是分布式人工智能(Distributed Artificial Intelligence，DAI)的一个主要领域，而多个Agent之间如何进行组织协调和协作以实现共同目标是MAS

学位

多Agent协作强化学习路径寻优人工智能

WinCon8000在长江防洪模型测量控制系统中的应用

长江防洪模型项目是世界银行贷款项目，主要通过实体模型试验、数学模型计算、原型资料分析等多种手段对三峡工程建成后长江中下游干流河道、湖区河网的泥沙运动、洪水演进和防

学位

河流模型测量控制系统WINCON8000控制器ModbusRTU协议PID控制系统长江防洪模型

嵌入式操作系统评测体系研究与实现

随着计算机技术、自控技术、通信技术的迅速发展，嵌入式系统在各个领域都得到了广泛的应用。而嵌入式操作系统的出现为嵌入式应用开发者提供了系统级的支撑环境，极大简化了嵌入

学位

嵌入式操作系统评测体系实时操作系统可靠性评估嵌入式软件

基于网页的关键词提取技术研究及其在广告领域的应用

随着网络上大量信息以网页形式组织出现，如何更好的理解网页的内容，提取有用的信息，已经成为当今网络信息检索领域的核心问题之一。并且伴随着AdSense商业模式的出现，如何更好的

学位

网页关键词提取广告词MainBlock细特征网络信息检索

GECISM中“缓冲溢出类非我”的识别与消除

缓冲区溢出漏洞非常普遍,可存在于Windows、Unix、Netware、SQL Sever等各种系统和应用程序中,因此缓冲区溢出攻击技术也成为了一项广泛而基础的攻击技术,并且也成为目前攻击

学位

缓冲溢出系统调用二叉树识别消除

格基规约算法与背包公钥密码体制的研究

现代密码学中，公钥密码体制蓬勃发展，基本的研究手段都是利用数学上的难题来设计密码体制或者对不同的公钥体制进行攻击。其中格上的难题就得到了很好的运用，格是一种线性结构，格

学位

格基规约背包公钥体制信息安全攻击算法

企业信息化与管理变革的耦合分析

伴随着信息技术革命的不断拓展和深入，世界范围内掀起了一股信息化的浪潮。这股浪潮对人类社会生活的各个方面都产生了深远的影响，极大地改变了我们这个时代的面貌。Standish G

学位

企业信息化管理变革耦合关键域耦合关键点

基于医学图像网格的异构信息访问系统

随着数字化医疗设备在临床医学诊断中的大量采用，以及计算机技术在医院的广泛应用，医学影像数据正在呈海量增长，现有的存储、计算及管理方式面临着巨大的挑战。基于医院现有HIS

学位

网格医学图像网格异构信息访问作业管理访问控制知识发现协同工作

不确定SMDP基于性能势的鲁棒控制研究

与本文相关的学术论文