不确定SMDP基于性能势的鲁棒控制研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:lv53647678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半Markov决策过程(SMDP)是离散事件动态系统用于描述随机序贯决策问题的一类基本模型,其性能的分析和优化对许多现实系统具有重要的指导意义。在SMDP模型中,状态的转移概率和性能函数是影响系统性能的两个重要因素。然而实际应用中,由于建模上的困难和外界环境的干扰,系统的状态转移概率往往难以精确得知,系统的即时性能也可能因某些不确定参数的影响而产生波动。为适应这类不确定SMDP系统在最优控制上的需要,本文在性能势理论的基础上研究了一类受不确定参数影响的SMDP鲁棒控制问题,着重讨论参数极坏情况下使系统性能达到最优的鲁棒控制策略求解算法。根据嵌入链结构的不同,SMDP可划分为遍历链、单链和多链三种模型。本文从最简单的遍历链模型出发,首先给出不相关不确定参数下的求解最优鲁棒策略的策略迭代算法,并讨论了策略迭代的收敛性;对参数相关的情况,本文详细介绍了遗传算法在SMDP鲁棒控制过程中的应用。在一般的多链模型中,由于多个常返类和瞬态的存在,要求解其最优策略是相当困难的。通过一些假设性条件的限制,本文研究了平均准则下一类特殊多链SMDP的最优性方程,并给出了相应的策略迭代算法。考虑到系统状态数目的增加将导致优化时间过长,为提高效率,本文在参数相关的多链鲁棒控制过程中引入并行遗传算法,通过多个处理机上的协同寻优来加速搜索,文中我们还详细讨论了迁移算子的两种具体实现方式。由于单链结构是多链的一种特例,上述有关算法也可运用于解决单链SMDP的鲁棒控制问题。文章通过一些数值例子来说明相关算法的应用,并根据实验结果分析了各种鲁棒决策算法的优化效果。
其他文献
随着计算机网络和通信技术的发展以及多媒体应用的深入和普及,VoIP技术已经成为通信领域的关键技术之一。本文的目的是通过研究VoIP中的信令协议SIP,重点是SIP协议中信息处理的
网络结构模型构建是P2P核心研究领域之一,其中结构化P2P系统把计算机组织成一个具有良好的连接和路由规律的结构化拓扑来进行资源共享和查询,但是网络环境的动态性导致系统维护
多Agent系统(Multi-Agent System,MAS)是分布式人工智能(Distributed Artificial Intelligence,DAI)的一个主要领域,而多个Agent之间如何进行组织协调和协作以实现共同目标是MAS
长江防洪模型项目是世界银行贷款项目,主要通过实体模型试验、数学模型计算、原型资料分析等多种手段对三峡工程建成后长江中下游干流河道、湖区河网的泥沙运动、洪水演进和防
随着计算机技术、自控技术、通信技术的迅速发展,嵌入式系统在各个领域都得到了广泛的应用。而嵌入式操作系统的出现为嵌入式应用开发者提供了系统级的支撑环境,极大简化了嵌入
随着网络上大量信息以网页形式组织出现,如何更好的理解网页的内容,提取有用的信息,已经成为当今网络信息检索领域的核心问题之一。并且伴随着AdSense商业模式的出现,如何更好的
缓冲区溢出漏洞非常普遍,可存在于Windows、Unix、Netware、SQL Sever等各种系统和应用程序中,因此缓冲区溢出攻击技术也成为了一项广泛而基础的攻击技术,并且也成为目前攻击
现代密码学中,公钥密码体制蓬勃发展,基本的研究手段都是利用数学上的难题来设计密码体制或者对不同的公钥体制进行攻击。其中格上的难题就得到了很好的运用,格是一种线性结构,格
伴随着信息技术革命的不断拓展和深入,世界范围内掀起了一股信息化的浪潮。这股浪潮对人类社会生活的各个方面都产生了深远的影响,极大地改变了我们这个时代的面貌。Standish G
随着数字化医疗设备在临床医学诊断中的大量采用,以及计算机技术在医院的广泛应用,医学影像数据正在呈海量增长,现有的存储、计算及管理方式面临着巨大的挑战。基于医院现有HIS