在加强型学习系统中用伪熵进行不确定性估计

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户：XM201314

【摘要】

：

加强型学习系统是一种与没有约束的，未知的环境相互作用的系统，学习系统的目标在大最大可能地获取累积奖励信号，这个奖励信号在有限，未知的生命周期由系统所处的环境中得到，对于一

【作者】

：

张平

【机构】

：

国家科研中心817号

【出处】

：

控制理论与应用

【发表日期】

：

1998年1期

【关键词】

：

加强型熵估计马尔柯夫过程学习系统伪熵 reinforcement learning Q-learning entropy estimate unc

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

加强型学习系统是一种与没有约束的，未知的环境相互作用的系统，学习系统的目标在大最大可能地获取累积奖励信号，这个奖励信号在有限，未知的生命周期由系统所处的环境中得到，对于一个加强型学习系统，困难之一在于奖励信号非常稀疏，尤其是对于只有时延信号的系统，已有的加强型学习方法以价值函数的形式贮存奖励信号，例如著名的Ｑ－学习。本文提出了一个基于状态的不生估计模型的方法，这个算法对有利用存贮于价值函数中的奖励

其他文献

模糊非线性规划对称模型基于遗传算法的模糊最优解

本文基于扩展原理，借助于隶属函数，对具有一般形式的Ｆｕｚｚｙ数，提出了描述和表达Ｆｕｚｚｙ目标和Ｆｕｚｚｙ约束条件的方法，将一类具有Ｆｕｚｚｙ目标／资源约束非线性规划的对称模型转化为确定性的非线性规划。基于遗传

期刊

非线性规划Fuzzy最优解遗传算法对称模型fuzzy nonlinear programming fuzzy optimal solution me

传统高等教育教学模式述评

启发诱导式、大班授受式、自学辅导式、实践发现式和自然无为式是我国古代比较有名的教育教学模式,经过了几千年的发展,对于当代高等教育教学的开展依然有着重要的启示和启发

期刊

高等教育教育教学教学模式High Education Educational Teaching Teaching Mode

非线性系统鲁棒耗散控制

基于二次型供给率，研究了不确定非线性系统的鲁棒耗散控制问题。不确定项用界范数来刻画。基于Hamilton-Jacobi不等式，得到了实现鲁棒耗散控制的充分条件及控制器的设计算法。

期刊

非线性系统耗散控制鲁棒控制

汽车四轮转向（4WS）的二自由度鲁棒控制器设计

四累转向控制器的传统设计没有考虑汽车参数在运行过程中的变化，这样得到的控制器往往难以维持其原有设计性能指标，采用鲁棒控制理论，提出二自由度鲁棒控制器设计方法，鲁棒控制器

期刊

汽车四轮转向H∞控制鲁棒控制器four wheel steering control of automobile robust control H_

激励:高校教育活动的重要手段

激励是教育学中的重要概念,它在高校教育中发挥着巨大的作用。激励教育的内容丰富,包括榜样激励、竞争激励、目标激励、情感激励等。通过激励,可以激发学生的积极性、主动性

期刊

激励教育积极性

女性知识分子命运的悲歌——评《没有名字的身体》

《没有名字的身体》以温婉华丽的文笔与语调，记叙当代知识女性“我”不断追寻爱情与希望，又不断遭逢挫败与绝望的心之旅，重在揭示爱情所带给女主人公的悲剧性的思考——命运是不

期刊

命运理想爱情Destiny Ideal Love

鹿心雪茶色素的研究

期刊

鹿心雪茶色素提取工艺食品添加剂稳定性

广义非线性系统解的一致最终有界性研究

首先利用隐函数定理及常规的非线性系统解地存在唯一性定理，给出了广义非线性系统解的存在唯一性条件，然后利用标量和Ｌｙａｐｕｎｏｖ函数方法，从系统本身出发，研究了广义非线性系统解的一致最终

期刊

广义非线性系统LYAPUNOV函数唯一性解singular nonlinear system uniform ultimate boundedness

自适应模糊辨识及其在大系统中的应用

本文基于Ｔ－Ｓ模糊模型构造了一种新的自适应模糊神经网络，给出了网络诉连接结构物学习算法，它能自动学习和修正前件参数及模糊规则，将其用于大系统随机民递阶优化的控制建模中，仿真结

期刊

系统辨识大系统自适应模糊辨识fuzzy logic neural network dynamic processes steady model s

浅谈中小企业如何破局经济新常态

从金融资本的角度来说,决定企业现阶段该怎么做和未来一段时间内该做什么的决定性因素,关键不在于过去的经验,更多的应该是未来的发展前景和形势变化。中小企业,特别是中小民

期刊

互联网+金融改革创新创业兼并重组

在加强型学习系统中用伪熵进行不确定性估计

与本文相关的学术论文