SMDP基于性能势的NDP优化方法及应用研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：robinleslie

【摘要】

：

离散事件动态系统(DEDS)是实际生活中广泛存在的一类人造系统,而半Markov决策过程(SMDP)是这类系统建模的主要方法之一。为了适应对于大状态空间离散事件动态系统优化控制的

【作者】

：

陈栋

【机构】

：

合肥工业大学

【出处】

：

合肥工业大学

【发表日期】

：

2006年期

【关键词】

：

半Markov决策过程性能势一致链强化学习神经元动态规划

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

离散事件动态系统(DEDS)是实际生活中广泛存在的一类人造系统,而半Markov决策过程(SMDP)是这类系统建模的主要方法之一。为了适应对于大状态空间离散事件动态系统优化控制的需要,论文重点研究了建立在强化学习(RL)基础上的神经元动态规划(NDP)方法在SMDP性能优化中的应用。性能势理论在SMDP的性能分析和研究中起着重要的作用。基于性能势理论及Bellman最优方程,很容易建立平均代价和折扣代价性能准则下的最优性方程,称之为基于性能势的Bellman最优方程。解此类方程可以采用理论的计算方法,如值迭代,策略迭代等,系统采用查表的方法获取控制信息,然而由于现代DEDS多为复杂的大状态空间系统,在对其进行理论求解时,内存需保存大量的信息,占用较多的存储空间,甚至会在大量矩阵求逆运算的时候,出现内存溢出的现象,造成问题不可解,从而产生所谓的“维数灾”(curse of dimensionality)问题。因此,理论的方法在大状态空间DEDS求解中不可行,需要考虑基于仿真的方法。而建立在强化学习基础上的NDP方法是解决上述问题的有效方法,该方法利用某种函数结构或网络结构逼近性能函数或策略,内存中只需保存少量的网络参数,从而起到了节省内存空间的作用。 NDP方法主要有critic、actor和actor-critic三种模式。文章主要研究了actor和actor-critic模式下的NDP方法。在两种模式下的优化过程中,我们首先将SMDP转化成等价Markov决策过程(MDP),继而转化成其等价一致链(uniformized chain)来研究。在actor模式下,我们利用神经元网络逼近策略。首先基于一致链的单样本轨道,进行性能势的在线TD学习,其学习值作为策略评估的手段;基于此学习值,再进行网络参数即策略参数化学习,求解(次)最优策略。在网络训练中,我们给出了负梯度下降法和样本训练法两种参数改进方法。而在actor-critic模式下,我们利用两个神经元网络分别逼近性能势和策略。两个网络的参数改进方法均采用负梯度下降法。整个优化算法类似于actor模式。此外,我们建立了两种模式下平均性能准则和折扣性能准则下统一学习的方法。文章中针对actor和actor-critic模式列出了数值例子,给出了实验结果。呼叫接入控制(CAC)是网络通信中常见的问题,其单节点呼叫接入控制问题可以转换为Markov决策问题来研究。同样,CAC系统中的大状态空间可导致“维数灾”。我们将NDP方法引入呼叫接入控制问题的研究当中,分别研究了critic、actor和actor-critic三种模式下的优化问题。在这

其他文献

数字音频水印技术研究

本文主要针对数字音频水印的稳健性、理论模型及抗几何变换攻击等问题展开研究，针对现有一些数字音频水印算法中的同步问题缺陷，提出了一种基于离散小波变换DWT(DiscreteWavele

学位

数字水印版权保护音频水印量化调制离散小波变换水印能量估计几何变换攻击

基于SVM的时态数据挖掘研究

时态数据预测是时态数据挖掘的一个重要的研究方向。它是用被预测事物过去或现在的已知数据，构造依时间变化的挖掘模型，对将来的未知做出预测。支持向量机是九十年代中期提出来

学位

时态数据挖掘支持向量机神经网络

视觉坐标测量机仿真模型的研究

本文主要对视觉坐标测量机的仿真模型进行研究,以摄像机为测头,进行非接触式立体视觉测量。该模型通过对摄像机的运动控制,形成多目立体视觉模型,实现了基于多目的非接触仿真

学位

立体视觉视觉坐标测量机平移测量模型

一种分布式入侵检测系统的研究与设计

入侵事件的日益猖獗,人们发现只从防御的角度构造安全系统是不够的。入侵检测系统IDS是继防火墙、数据加密等传统安全保护措施后新一代的安全保障技术。它对计算机和网络资源

学位

分布式入侵检测系统TCP/IP协议分析规则解析API函数网络安全

基于JXTA的P2P程序设计的研究

JXTA技术是网络编程和计算的平台,是用以解决现代分布计算尤其是点对点(P2P)计算中出现的问题的一种技术规范。JXTA技术提供了基础性的机制解决当前分布计算应用中面临的问题

学位

JXTAP2P点对点网络计算.NET Framework

基于B语言与TPN集成的形式化方法

随着人们对软件系统的要求不断地提高，形式化技术得到了充分的发展。过去人们依赖于优秀的软件工程师来对软件系统可靠性和安全性提供保证，而如今，人们可以使用已有的形式化技术

学位

形式化方法集成TPNB方法TB网可达图时间约束活性有界性

SMDP基于性能势的异步优化算法

随着社会和科技的发展,离散事件动态系统(DEDS)的性能分析和优化应用已经成为控制与系统、管理、计算机等学科交叉领域内的一个前沿研究方向。半马尔可夫决策过程(SMDP)作为

学位

半Markov决策过程性能势异步迭代优化仿真平台

基于视频时空特征稀疏编码表示的人体行为识别

视频中的人体行为识别主要是指对包含人体行为的视频文件或片段进行分类和标记，是近年来计算机视觉和模式识别领域一个非常热门的研究方向，在人机交互、智能监控、视频检索等领

学位

时空特征稀疏编码人体行为识别视频表示

基于3G智能终端的SIP协议应用的研究——Symbian平台上基于SIP协议的PA的实现

3GPP(3州generationpartnershipproject第三代移动通信伙伴项目)工作组已经决定采用SIP作为其IP多媒体子系统域的协议，其目标是对Intemet所拥有的所有成功服务提供无处不在的

学位

智能终端第三代移动通信IP协议

进程重写系统的有限性问题研究

近年来，无限状态系统的验证成为了一个十分热门的研究领域。其中研究的重要问题不仅仅有对系统间等价的判定，还包括对系统和特定有限系统的等价性和系统的有限性判定。有限性问

学位

进程重写系统有限性互模拟等价关系可判定性多项式时间算法

SMDP基于性能势的NDP优化方法及应用研究

与本文相关的学术论文