基于多个并行CMAC神经网络的强化学习方法

来源 :系统仿真学报 | 被引量 : 0次 | 上传用户：X_DotNET

【摘要】

：

为解决标准Q学习算法收敛速度慢的问题,提出一种基于多个并行小脑模型(Cerebellar Model Articulation Controller:CMAC)神经网络的强化学习方法。该方法通过对输入状态变量

【作者】

：

李明爱焦利芳郝冬梅乔俊飞

【机构】

：

北京工业大学电子信息与控制工程学院,

【出处】

：

系统仿真学报

【发表日期】

：

2008年24期

【关键词】

：

CMAC 强化学习小脑模型神经网络收敛性学习方法倒立摆状态变量学习速度控制精度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为解决标准Q学习算法收敛速度慢的问题,提出一种基于多个并行小脑模型(Cerebellar Model Articulation Controller:CMAC)神经网络的强化学习方法。该方法通过对输入状态变量进行分割,在不改变状态分辨率的前提下,降低每个状态变量的量化级数,有效减少CMAC的存储空间,将之与Q学习方法相结合,其输出用于逼近状态变量的Q值,从而提高了Q学习方法的学习速度和控制精度,并实现了连续状态的泛化。将该方法用于直线倒立摆的平衡控制中,仿真结果表明了其正确性和有效性。 In order to solve the problem of slow convergence rate of standard Q learning algorithm, a reinforcement learning method based on multiple Cerebellar Model Articulation Controller (CMAC) neural networks is proposed. By dividing the input state variables, the method reduces the quantization level of each state variable without changing the state resolution, effectively reduces the storage space of the CMAC and combines it with the Q learning method. The output of the method is used for Approximates the Q value of the state variables, thereby improving the learning speed and the control precision of the Q learning method, and realizes the generalization of continuous states. The method is applied to the balance control of linear inverted pendulum. Simulation results show its correctness and validity.

其他文献

板桥水库复建工程竣工

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

复建工程竣工验收最高洪水位张春园成玉副部长河南省副省长

新型地下潜孔钻机

苏联有色金属矿山使用各种型号(HKP-100、C-3M 等)的潜孔钻机钻凿深孔。C-3M 型潜孔钻机的使用最广,但由于钻机操作繁重,凿岩工体力劳动强度大,钻机效率低和钻孔质量差,而不

期刊

潜孔钻机凿岩体力劳动强度有色金属矿山深孔钢绳钻孔质量拉紧装置钻凿扇形炮孔

万变不离其本:一道语文学科教学的终极命题——探究高校语文课堂教学工具性与人文性的统一

语文学科是我们整个教育体系中的重点学科,这门学科有其独特的魅力和功能价值。作为一门与我国传统文化息息相关,承载着当代语言文字应用等诸多方面的功能,在教学过程中,当前

期刊

语言文字应用文学科重点学科教育体系功能价值学习态度实践体验结合语道德健康主体性地位

活柱筒斜度检测仪

活柱筒是HZWA型微增阻摩擦式金属支柱的关键部件。它的制造要求较高,特别是两摩擦面1:1250_(-250)~(+150)的斜度直接影响支柱的承载曲线及使用性能。在活柱筒的制造工序中,

期刊

检测仪制造工序摩擦面金属支柱件号摩擦式使用性能关键工序滑座浮杆

东北地区水情工作会议在长春市举行

东北地区水情工作会议于1992年6月8～9日在吉林省长春市举行。这次会议是为了总结1991年防汛工作中水文预报情报工作的经验和教训,做好1992年防汛水情工作;会商1992年汛期洪水

期刊

趋势预报情报工作汛期洪水审定工作暴雨洪水分析水调洪水过程副主任松辽委松花江流域

提高水库设计洪水计算精度的途径

近年来水库设计洪水的计算成果存在着某些偏高、偏低及多变的现象,对水库的安全和经济以及设计施工的正常进行影响很大。为了妥善安排若干水库的续建工程并管好用好已建成的

期刊

设计洪水计算水利会议百年一遇计算成果暴雨历时洪峰流量频率分析重现期漫滩特大暴雨

玉米自交系抗粗缩病特性的遗传基础及轮回选择效应研究

通过定向轮回选择对玉米自交系进行抗粗缩病特性改良 ,不仅能提高玉米自交系的抗病性 ,也随之提高了其组成杂交种的抗性水平。玉米抗粗缩病的性状为数量性状 ,由微效多基因所

期刊

自交系轮回选择粗缩病杂交种玉米自交系抗病性遗传基础抗性表现品种抗病性性状

纪念《水法》实施四周年松辽委举办《水法》知识竞赛

在《水法》颁布四周年之际,为了进一步深入贯彻宣传《水法》,松辽委于1992年7月3日举办了委所属单位参加的《水法》知识竞赛。松辽委副主任田文祥、宋为民、冯明祥等领导观

期刊

《水法》知识竞赛松辽委水文局法制观念建管局田文副主任施工处

遗传算法反演HTI介质各向异性参数

张世俊 ,杨慧珠 ,董渊 ,杜启振 .遗传算法反演 HTI介质各向异性参数 .石油地球物理勘探 ,2 0 0 2 ,37(1) :2 4～2 8具有水平对称轴的横向各向同性 (HTI)介质是用来描述含有平行

期刊

各向异性参数HTI动校正速度转换波遗传算法裂缝性油气藏Thomsen参数方位变化双程旅行时横波分裂

脉络膜骨瘤3例超声图像分析

期刊

脉络膜骨瘤图像分析球壁左眼视力超声检查强回声光团超声图全身病黄斑变性视网膜血管

基于多个并行CMAC神经网络的强化学习方法

与本文相关的学术论文