在加强型学习系统中用伪熵进行不确定性估计

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:XM201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
加强型学习系统是一种与没有约束的,未知的环境相互作用的系统,学习系统的目标在大最大可能地获取累积奖励信号,这个奖励信号在有限,未知的生命周期由系统所处的环境中得到,对于一个加强型学习系统,困难之一在于奖励信号非常稀疏,尤其是对于只有时延信号的系统,已有的加强型学习方法以价值函数的形式贮存奖励信号,例如著名的Q-学习。本文提出了一个基于状态的不生估计模型的方法,这个算法对有利用存贮于价值函数中的奖励
其他文献
本文基于扩展原理,借助于隶属函数,对具有一般形式的Fuzzy数,提出了描述和表达Fuzzy目标和Fuzzy约束条件的方法,将一类具有Fuzzy目标/资源约束非线性规划的对称模型转化为确定性的非线性规划。基于遗传
启发诱导式、大班授受式、自学辅导式、实践发现式和自然无为式是我国古代比较有名的教育教学模式,经过了几千年的发展,对于当代高等教育教学的开展依然有着重要的启示和启发
基于二次型供给率,研究了不确定非线性系统的鲁棒耗散控制问题。不确定项用界范数来刻画。基于Hamilton-Jacobi不等式,得到了实现鲁棒耗散控制的充分条件及控制器的设计算法。
四累转向控制器的传统设计没有考虑汽车参数在运行过程中的变化,这样得到的控制器往往难以维持其原有设计性能指标,采用鲁棒控制理论,提出二自由度鲁棒控制器设计方法,鲁棒控制器
激励是教育学中的重要概念,它在高校教育中发挥着巨大的作用。激励教育的内容丰富,包括榜样激励、竞争激励、目标激励、情感激励等。通过激励,可以激发学生的积极性、主动性
《没有名字的身体》以温婉华丽的文笔与语调,记叙当代知识女性“我”不断追寻爱情与希望,又不断遭逢挫败与绝望的心之旅,重在揭示爱情所带给女主人公的悲剧性的思考——命运是不
首先利用隐函数定理及常规的非线性系统解地存在唯一性定理,给出了广义非线性系统解的存在唯一性条件,然后利用标量和Lyapunov函数方法,从系统本身出发,研究了广义非线性系统解的一致最终
本文基于T-S模糊模型构造了一种新的自适应模糊神经网络,给出了网络诉连接结构物学习算法,它能自动学习和修正前件参数及模糊规则,将其用于大系统随机民递阶优化的控制建模中,仿真结
从金融资本的角度来说,决定企业现阶段该怎么做和未来一段时间内该做什么的决定性因素,关键不在于过去的经验,更多的应该是未来的发展前景和形势变化。中小企业,特别是中小民