大规模Markov系统基于性能势学习的NDP优化方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:seryhugjkghj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实际生活中的许多序贯决策问题,如柔性制造系统、交通指挥系统、排队系统等,都可以模型化为Markov决策过程(MDP)。出于实际应用的需要,MDP的优化控制已成为控制理论界的研究热点问题之一。MDP作为一个复杂的离散事件系统,尤其是对于存在“维数灾”和“模型灾”问题的系统,其管理与控制问题难以用一般的常规方法来解决。性能势理论的逐步完善为Markov决策过程的优化控制提供了一个较为完整的框架,在此基础上论文重点研究了MDP基于性能势强化学习的一类优化方法。 针对传统的理论优化方法如策略迭代、数值迭代不能适用于大规模系统的问题,我们采用仿真方法。在样本轨道仿真的基础上,利用神经网络进行强化学习仿真逼近系统的性能势,进而对系统进行优化。文中主要考虑了两种强化学习方法:Monte-Carlo方法和即时差分(TD)方法,分别给出了MDP基于Monte-Carlo仿真的NDP优化方法和基于TD(0)学习的NDP优化方法。具体地,给出了基于样本轨道仿真的策略迭代算法和Critic模式下的神经元策略迭代算法,研究了存在每步逼近误差和改进误差情况下的性能误差界问题。并分别讨论了平均代价准则和折扣代价准则下MDP优化的参数化TD(0)学习规则和参数改进公式,建立了基于TD(0)学习的Critic模式下的NDP优化算法,另外从性能势在样本轨道上的定义出发,给出了两种性能准则下统一的性能势TD(0)学习公式,以及建立在参数TD(0)学习基础上的统一的NDP优化方法。 对于现实中一类更为广泛的半Markov系统(SMDP),论文通过一个等价无穷小生成子的概念,定义了SMDP的一个α-一致化Markov链,利用它们性能测度和性能势之间的一些重要关系,把SMDP的优化转化成一致化链来实现,研究了折扣准则和平均准则下SMDP的优化控制问题。 文章以一个SMDP数值实例来说明相关优化方法的应用,研究结果具有一定普适性,可以运用到广泛的一类Markov系统或半Markov系统中。
其他文献
  本文首先介绍了一些现有的视频压缩标准以及视频压缩标准发展现状,并从码率、图像质量等方面进行比较,然后本文对视频压缩的基本原理和H.264视频压缩标准一些新特性做了全
本文以湖北省职称评审工作为研究对象,在充分分析MDA及xUML建模技术的基础上,并结合实际职称评审工作流程,应用Rational统一过程方法(RUP)对其进行建模.分析了系统的业务数据
本课题的任务是为 LX-1164 处理器芯片开方浮点处理器(FPU)中的超高速浮点除法/开方运算器(FDIV)。 当前评价一个处理器性能的重要指标之一就是其浮点性能的好坏,而浮点除法
复用概念最早出现在1968年的NATO会议上。至今,软件复用的发展及研究涉及面已非常广泛,复用程度也将越来越大,从而,应用在不同领域、不同作用的各种各样的软件构件层出不穷。
  本论文首先对网络性能分析的方法、指标和基本理论进行了论述。研究了P2P网络文件共享的模式结构和关键技术,对P2P网络的通用模型进行分析和讨论,总结出影响P2P网络性能的
该文首先介绍了保障信息安全的各种密码和认证技术,阐述了身份认证理论及其实现,并分析了几类常见的身份认证机制.其次讨论了常见的口令机制及其易受的攻击,分析了现有的一些
PCI总线作为迄今为止速度最快的并行总线之一,被广泛应用于个人电脑、工业控制计算机等领域。并且由于其高效、稳定以及操作系统对其广泛的支持,因而在芯片级设计中,往往使用PCI
移动终端的多元化及社交广泛性为互联网发展带来一场深刻的变革,智能手机作为移动终端产品的代表,在市场上占据主导地位。根据市场分析,80%以上的智能手机运行安卓系统。随着
本文深入研究了当前的WebService技术及其相关技术,提出了基于WebService的统一身份认证系统的解决方案,使得通过WebService技术把用户的身份认证功能以服务的形式提供出来,让企
银行信用卡业务属于高收益、高风险的业务,如何实现对信用卡的客户流失控制是发卡银行迫切需要解决的问题。目前,随着银行积累了大量的数据,并建立了数据仓库,使得采用数据挖掘技