大规模状态的最优策略学习研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：lynnxiao

【摘要】

：

强化学习是通过最大化累积的期望回报来获取最优策略的一种重要机器学习方法。根据是否需要模型知识,强化学习方法可以分为模型相关方法和模型无关方法。与模型无关方法相比,

【作者】

：

钟珊

【出处】

：

苏州大学

【发表日期】

：

2017年01期

【关键词】

：

强化学习模型学习函数近似模型规划策略梯度经验回放

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是通过最大化累积的期望回报来获取最优策略的一种重要机器学习方法。根据是否需要模型知识,强化学习方法可以分为模型相关方法和模型无关方法。与模型无关方法相比,模型相关方法能更快地寻求到最优策略,同时也具备更好的样本效率。然而,大部分现实问题中的模型是未知的,若想采用模型来提高算法性能,必须首先学习模型。目前,基于模型学习的方法已经成为了强化学习研究领域的一个研究热点。本文从模型学习的角度出发,对大规模连续状态空间的强化学习方法存在的样本效率不高和收敛速度慢等问题展开分析,提出了一系列解决方案,并将解决方案应用在平衡杆、倒立摆、Boyan链和清洁机器人等经典的强化学习测试平台中。本文主要研究内容包括以下四部分:(1)针对大规模连续状态和离散动作空间问题,提出了基于近似模型表示的启发式Dyna优化算法——HDyna-AMR(A heuristic Dyna optimization algorithm using approximate model representation)。HDyna-AMR算法采用线性函数来近似特征迁移矩阵和奖赏向量,并采用agent与环境交互获得的样本来学习特征迁移矩阵和奖赏向量,同时记录特征出现的频率;在规划过程中,将特征出现频率作为优先级,并通过优先级队列来重点采样,以提高规划的效率。此外,从理论的角度对算法的收敛性进行了证明。(2)针对大规模连续状态和连续动作空间问题,提出了一种基于层次化模型学习与规划的强化学习算法——AC-HMLP(Actor-critic algorithm based on hierarchical model learning and planning)。AC-HMLP算法包含两个模型:局部模型和全局模型。采用局部线性回归(local linear regression,LLR)近似局部模型,而全局模型则通过线性函数来近似,利用在线学习过程中获得的样本来学习模型,并通过模型规划来更新值函数和策略。当局部模型误差没有超过误差阈值时进行局部规划,而全局模型则是在每个情节后被用于进行全局规划。通过两个模型的合作来充分利用样本的局部信息和全局信息,以提高模型的精确性和促进算法更快收敛。(3)为了进一步提高样本效率,提出了一种基于LSTD(λ)和策略近似的强化学习方法——Dyna-LSTD-PA(Dyna based on least square temporal difference and policy approximation)。与前面的算法类似,Dyna-LSTD-PA同样包含两个并发的过程。学习过程主要是通过高斯分布来选择执行的动作,并采用LSTD(λ)对线性函数近似的值函数、策略和模型进行参数更新。规划过程采用离线的LSTD(λ)来更新值函数参数。Dyna-LSTD-PA算法采用Sherman-Morrison来提高LSTD(λ)的计算效率,同时在每个时间步,通过对学习过程和规划过程得到的值函数参数进行加权,来学习更为精确的值函数参数。从理论的角度对Dyna-LSTD-PA算法的全局误差进行了推导。(4)为了减小策略梯度的方差和提高策略的收敛速度,提出了采用经验回放和模型学习共同加速的正则化自然AC算法RNAC-ML-ER(Regularized natural actor-critic with model learning and experience replay)。RNAC-ML-ER算法不仅利用在线获取的样本来学习模型,同时用于填充经验回放存储器。在每个时间步,均可以利用经验回放存储器中的样本进行回放,来提高值函数和策略学习速度;同时为了促进策略的快速收敛,采用自然梯度来代替传统的策略梯度,以加快策略的收敛,并采用优势函数作为目标函数来求取策略梯度,以降低策略梯度方差。在假定的二个假设成立的条件下,对算法的收敛性进行了证明。

其他文献

试析利率市场化对居民持现的影响——基于山西省的研究

以凯恩斯货币需求理论为基础,首先分析了山西省居民持现对利率的敏感性,然后通过比较理财产品对商业银行现金流量的影响,探讨了利率市场化对山西省居民持现可能产生的影响,为

期刊

利率市场化持现山西

湖南省金融发展与产业结构优化升级

选取了1980-2012年湖南省金融发展和产业结构的相关数据,通过协整检验和回归分析,对湖南省金融发展与产业结构优化升级的关系进行了实证检验。通过研究发现湖南金融发展推动

期刊

湖南金融总量金融结构金融效率产业结构优化升级

浅谈商业综合体建筑的交通设计解决方案

笔者结合不同案例对商业综合体建筑在不同区域和场地条件下的交通设计进行梳理,阐述了商业综合体建筑交通设计应遵循的基本设计原则、设计目标及解决对策及设计手法,以期达到

期刊

商业综合体建筑交通设计无缝衔接交通体验式消费

LME市场调期相关规则介绍及费用测算

伦敦金属交易所（LME）是国际市场中最具现货平台特点的期货交易所，交易规则独具特色。本文就其调期等规则做了详细介绍，并在相关交易及交割规则基础上，结合具体的案例来测算调期费

报纸

计算机网络传输中有效压缩数据的方法研究

如何在计算机网络传输中有效的压缩数据是网络信息传输中一直讨论的话题之一。有效的压缩数据不仅能保护好文件在压缩时不受到损坏,还能减少文件内存的大小,提高了网络传输的

期刊

数据压缩网络传输编码

响应面法优化红茶菌发酵工艺

从优质红茶菌中分离纯化醋酸菌、酵母菌进行混合纯种发酵,采用单因素法和响应面法优化红茶菌发酵工艺,结合总糖利用率和感官评价,得到最佳工艺条件为:以木醋杆菌和巴斯德酵母

期刊

红茶菌混菌发酵响应面法工艺优化

基于移动终端的信息科技学科听评课系统的设计与应用

有效的课堂观察能够激发教师的专业自觉和主体意识,提高课堂教学质量,促进教师的专业化发展。随着新课改的推进,课堂教学评价方面的改革也在探索中前进。在信息化时代的今天,

学位

移动终端信息科技听评课听评课教研教师的专业发展

旅游视角下的焦作市非物质文化遗产开发式保护研究

文章在对非物质文化遗产保护的理论探讨和焦作市非物质文化遗产概况介绍的基础上,从保护层面、保护措施和保护困境三方面对焦作市非物质文化遗产保护现状进行分析,提出旅游视

期刊

旅游焦作市非物质文化遗产开发式保护

微波灰化ICP-AES法测定竹笋中的微量金属元素研究

采用微波灰化竹笋,盐酸溶解,ICP-AES法测定竹笋中对人体有益的微量金属元素钾、钙、镁、铁、锰、锌和铜的含量,考察了微波灰化的条件。结果表明:微波灰化温度700℃、恒温15mi

期刊

ICP-AES竹笋微波灰化金属元素

温度对软包装葡萄酒总酚和氧化褐变的影响

在不同温度条件下对红葡萄酒进行储存实验,运用福林-酚比色法测定不同温度条件下葡萄酒中总酚含量,同时检测葡萄酒褐变度的变化规律,研究分析温度对红葡萄酒氧化褐变及其氧化

期刊

红葡萄酒氧化褐变软包装福林-酚比色法温度

大规模状态的最优策略学习研究

其他学术论文