基于多个并行CMAC神经网络的强化学习方法

来源 :系统仿真学报 | 被引量 : 0次 | 上传用户:X_DotNET
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决标准Q学习算法收敛速度慢的问题,提出一种基于多个并行小脑模型(Cerebellar Model Articulation Controller:CMAC)神经网络的强化学习方法。该方法通过对输入状态变量进行分割,在不改变状态分辨率的前提下,降低每个状态变量的量化级数,有效减少CMAC的存储空间,将之与Q学习方法相结合,其输出用于逼近状态变量的Q值,从而提高了Q学习方法的学习速度和控制精度,并实现了连续状态的泛化。将该方法用于直线倒立摆的平衡控制中,仿真结果表明了其正确性和有效性。 In order to solve the problem of slow convergence rate of standard Q learning algorithm, a reinforcement learning method based on multiple Cerebellar Model Articulation Controller (CMAC) neural networks is proposed. By dividing the input state variables, the method reduces the quantization level of each state variable without changing the state resolution, effectively reduces the storage space of the CMAC and combines it with the Q learning method. The output of the method is used for Approximates the Q value of the state variables, thereby improving the learning speed and the control precision of the Q learning method, and realizes the generalization of continuous states. The method is applied to the balance control of linear inverted pendulum. Simulation results show its correctness and validity.
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
苏联有色金属矿山使用各种型号(HKP-100、C-3M 等)的潜孔钻机钻凿深孔。C-3M 型潜孔钻机的使用最广,但由于钻机操作繁重,凿岩工体力劳动强度大,钻机效率低和钻孔质量差,而不
语文学科是我们整个教育体系中的重点学科,这门学科有其独特的魅力和功能价值。作为一门与我国传统文化息息相关,承载着当代语言文字应用等诸多方面的功能,在教学过程中,当前
活柱筒是HZWA型微增阻摩擦式金属支柱的关键部件。它的制造要求较高,特别是两摩擦面1:1250_(-250)~(+150)的斜度直接影响支柱的承载曲线及使用性能。在活柱筒的制造工序中,
东北地区水情工作会议于1992年6月8~9日在吉林省长春市举行。这次会议是为了总结1991年防汛工作中水文预报情报工作的经验和教训,做好1992年防汛水情工作;会商1992年汛期洪水
近年来水库设计洪水的计算成果存在着某些偏高、偏低及多变的现象,对水库的安全和经济以及设计施工的正常进行影响很大。为了妥善安排若干水库的续建工程并管好用好已建成的
通过定向轮回选择对玉米自交系进行抗粗缩病特性改良 ,不仅能提高玉米自交系的抗病性 ,也随之提高了其组成杂交种的抗性水平。玉米抗粗缩病的性状为数量性状 ,由微效多基因所
在《水法》颁布四周年之际,为了进一步深入贯彻宣传《水法》,松辽委于1992年7月3日举办了委所属单位参加的《水法》知识竞赛。松辽委副主任田文祥、宋为民、冯明祥等领导观
张世俊 ,杨慧珠 ,董渊 ,杜启振 .遗传算法反演 HTI介质各向异性参数 .石油地球物理勘探 ,2 0 0 2 ,37(1) :2 4~2 8具有水平对称轴的横向各向同性 (HTI)介质是用来描述含有平行