一种基于状态聚类的SARSA(λ)强化学习算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:a6532460
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行sARsA(λ)学习.若能进行适当的状态聚类,算法将可得到一个相对好的近似值函数.
其他文献
在灌区水源等基本资料的基础上,分析了多水源联合运用灌区的水资源优化配置问题。运用单纯型法,建立数学模型,借助Visual Basic编程进行求解,得到作物充分灌溉条件下的最大效
教师在教育教学中起着举足轻重的作用,尤其作为班主任,在学生的学习和生活中的影响极其深远,在后进生、问题生、困难生中体现的尤其明显,这就要求我们班主任在教育教学中要充
充分利用Web Services、中间件等技术,设计并实现了基于Web Services的智能化农业软件支撑平台,该平台具有跨平台、分布式、多线程等特点,为农业软件开发提供了一个方便快捷
目的探讨曲安奈德益康唑乳膏(简称:曲益乳膏)联合莫匹罗星软膏(简称:莫罗软膏)治疗中、重度婴儿尿布皮炎的效果。方法120例中、重度婴儿尿布皮炎患儿随机分为两组:对照组(60例):常规护
为了缓解能源危机,利用光催化反应直接从太阳光中获取能量是一种有前景并且理想的方案。贵金属纳米颗粒因具有等离子体共振效应而表现出吸收太阳光的性能,因此由太阳光引发负
提出一种基于模块的运算部件模拟验证方法,其基本思想是:针对运算部件模块,从通用的C测试程序中提取出模拟和仿真的输入向量;并对运行结果进行分析.利用该方法针对浮点乘法部
提出了一种基于(m,n)-门限方案和椭圆曲线密码体制的数据加密方案.在该方案中,用户分为单人用户和群组用户两种类型.群组用户是指由多个(设为n个)参与者组成的一个集体,他们
新的中学物理课程标准在课程目的、结构、内容、评价和实施等方面都有了重大的创新和突破。要真正落实新课标要求,则需要深入开展课堂教学改革。课堂教学要多联系生活,推动学生
运用数学知识解决实际问题是我们学数学的重要目的之一。随着新课程改革的深入,如何更好地培养学生运用数学知识解决实际问题的能力显得越来越重要。本文结合笔者多年的教学经
拱坝温度是作用于拱坝的主要荷载之一,对拱坝应力特别是拉应力影响较大。拱坝温度荷载由封拱温度场、年平均温度荷载及变化温度场3个特征温度场的相应值计算求得,而众多拱坝