基于核方法的近似强化学习的研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户:caiyoutian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种通过不断与环境进行“试错”交互寻求最大化奖赏信号的学习方法。强化学习能够基于无标签数据对模型未知的问题进行在线学习,但是存在收敛精度低、收敛速度慢、处理连续动作难等问题。核方法是一种高效的无参函数逼近方法,采用其逼近强化学习中的值函数与策略函数能够有效缓解收敛精度低、收敛速度慢的问题。作为一种行动者-评论家(AC)方法,策略梯度具有处理连续状态与动作问题的能力。本文着眼于模型未知的连续空间问题,将核方法与策略梯度方法应用于强化学习中近似函数的逼近,提出以下三部分内容:(1)对基于核的强化学习方法而言,核函数与稀疏化方法直接决定值函数与策略函数的近似效果,进而影响算法性能。传统的稀疏化方法计算时间长、估计精度低。针对该问题,本文提出一种基于聚类的稀疏化方法(CNC)。该算法在学习准备阶段借助聚类方法抽象出数据分布,以此提高算法估计精度;在线学习阶段采用复杂度低的新奇规则方法,满足实时性要求高的在线学习方法。在Sarsa(λ)算法框架下,结合CNC方法与选择性核函数(CNC-SK)近似表示值函数,并提出基于聚类的选择性核的Sarsa(λ)算法(CSKS(λ))。最后通过实验验证CSKS(λ)算法在处理连续状态、离散动作问题方面的性能。(2)策略评估是行动者-评论家方法的重要组成部分。真实在线时间差分算法(TOTD(λ))是一种高效的策略评估算法。本文将其与CNC-SK结合,提出一种基于核的真实在线时间差分算法(TOKTD(λ))。并实验验证TOKTD(λ)算法在策略评估方面的性能。最后将该算法应用于AC方法中的评估部分,并通过连续状态、连续动作问题验证TOKTD(λ)算法在加快策略改进方面的性能。(3)基于TOTD(λ)的真实在线思想,改进自然梯度的计算方法,并结合内容(1)、(2),提出基于核的真实在线自然梯度行动者-评论家算法(TOKNAC),用于解决未知环境、连续状态与连续动作问题。算法采用研究内容(1)提出的CNC-SK方法近似表示值函数与策略函数。评论家部分采用TOKTD(λ)算法评估策略;行动者部分采用TOTD(λ)的思想计算自然梯度。最后通过实验验证算法在处理环境未知、连续状态与连续动作控制问题时的有效性。
其他文献
黑龙江垦区的开发和建设在中华人民共和国史上留有浓墨重彩的一笔,从艰苦创业发展到今天,已经成为国家商品粮生产基地、粮食安全的战略储备基地、农业现代化的示范基地和国家
从1969年开始,民主德国借助批判中国和联邦德国以贴近苏联,依靠同中国接近以制衡苏联和联邦德国,并限制中国同联邦德国发展关系。与此同时,中国重启了对民主德国的"区别对待
依据板块构造学说划分大地构造单元的原则和构造亲缘关系 ,将滇西及邻区划分为 8个一级构造单元 :Ⅰ印度板块、Ⅱ冈底斯中间板块、Ⅲ拉萨地块、Ⅳ缅甸板块、Ⅴ滇缅泰板块、Ⅵ
海洋浅地层剖面技术是目前最主要的海洋高分辨率浅地层结构地球物理调查方法,广泛应用于天然气水合物调查、海洋井位调查和海洋工程调查等项目中。目前,最常用的两种浅地层剖
"幼小衔接"是幼儿从幼儿园到小学的一个过渡过程。在这期间课程的设置应具有衔接性和连贯性双重特点,这样才能帮助幼儿顺利的度过转折阶段,平稳进入小学。本文针对衔接的问题
<正>在日趋复杂的市场环境中,企业比拼的不仅仅是价格或者质量的竞争,更是企业整体管理和运作水平的竞争。同时,客户的消费习惯已经愈发成熟,客户需求趋向多样化,维护客户关
目前,随着我国高等教育的发展,地方高校大学生就业问题成为当前社会、学校、家长共同关心的问题.文章分析了地方高校大学生就业能力低的原因,并探索出突出地方高校办学特色,
采用平面弹塑性细胞自动机模型在细观尺度上模拟应变软化岩石类材料的单轴压缩破坏过程.在平面弹性力学细胞自动机的基础上,推导分析平面弹塑性问题的细胞自动机更新规则,开
曲折和复苏——从“反右派”运动到调整时期的“双百”方针夏杏珍从1956年4月“百花齐放、百家争鸣”方针的提出到1961年“双百”方针经历了起伏波折,本文将对此过程作一简要述评。反右
随着我国旅游行业的高速发展,其对旅游管理专业人才的需求量也越来越大.面对新的形式,为了提高旅游管理专业人才的综合素质,本文以社会对旅游管理专业的人才需求目标为出发点