强化学习样本效率理论研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：wgp54178

【摘要】

：

强化学习是机器学习的一个主要分支,主要研究如何让智能体从与环境的交互中推断出最优控制决策。目前的强化学习算法往往需要大量的交互数据才能达到良好的学习效果,这限制了

【作者】

：

张良鹏

【出处】

：

中国科学技术大学

【发表日期】

：

2004年期

【关键词】

：

机器学习强化学习样本效率探索策略 PAC理论分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是机器学习的一个主要分支,主要研究如何让智能体从与环境的交互中推断出最优控制决策。目前的强化学习算法往往需要大量的交互数据才能达到良好的学习效果,这限制了己有技术在交互数据较为昂贵的实际问题中的应用。为减少强化学习对于数据量的高度依赖,我们需要对相关算法的样本效率有更深入的了解。己有的理论分析虽然能够一定程度上刻画出算法、问题实例与样本效率之间的关系,然而其分析结果过于针对最难问题实例,对于一般难易度的问题上的样本效率则无法给出足够精确的预测。这就导致已有理论结果很难用来帮助使用者和研究者比较、挑选、设置、改善算法。本论文通过改善己有分析方法和提出新分析方法这两种思路来尝试得到能够更好地预测实际情况的样本效率理论。在第一个工作中,我们对于己有的PAC-MDP样本复杂度分析方法进行改善,提出停更样本复杂度分析方法,以使之能够更好地反映问题实例不同难易度对于算法样本效率的影响。在此基础之上,我们提出谨慎度逐增的乐观原则,以改善已有的具有PAC-MDP理论保证的算法,使其在保持原有良好理论性质的前提下,提高其实际样本效率。我们使用停更样本复杂度分析方法对改善后的算法进行分析,指出它们在非最难问题上比起原算法具有更好的理论样本效率。实验结果显示改善后的算法也具有更好的实际样本效率,展现出我们的分析方法对于分析和改善算法的有效性。在第二个工作中,我们提出强化学习成功概率分析法,直接刻画算法、具体问题实例、样本效率之间的数学关系,以得出在同一问题上算法不同参数设置对于最终样本效率的影响。我们对一个原型算法在链式MDP问题上的成功概率函数进行逐层分解并详细分析,给出算法成功找出良好策略的概率关于算法参数值和问题特性相关变量的具体数学表达式,并通过使用对数正态分布为成功概率给出了一个更易于计算的近似。实验结果表明我们的成功概率分析结果在链式MDP及迷宫MDP上以较高准确度和精确度预测出了算法在不同参数设置下的实际样本效率。在第三个工作中,我们深入分析导致同一算法在不同问题实例上样本效率有高有低的关键因素,指出估计价值的偏态特性正是这样一个因素。我们对第二个工作的一些结果进行推广,指出一个状态价值估计值等于一系列路径状态价值的加权和,而路径状态价值服从对数正态分布。因此,状态价值估计值服从的分布是一系列具有正偏态的对数正态分布与具有负偏态的“翻转”对数正态分布的卷积,其最终偏态可正可负,取决于两组分布的综合影响孰强孰弱。最终具有正偏态的估计价值有较高概率被低估,而具有负偏态的估计价值则有较高概率被高估,这对于算法正确判断状态价值优劣关系造成严重干扰。我们推导出估计价值偏态的方向与尺度关于问题特性和样本大小的数学表达式,并根据该结果指出一些能够减小负面影响的措施。

其他文献

中医诊断学史论

诊断学，是联系基础理论与临床各科之间的桥梁。本文通过对中医诊断学历史文献的梳理，说明诊断学内容从零散到系统的演变过程，从而探索它的发展规律、特点，及其产生的影响因素。在

学位

中医诊断学诊法辨证历史

AMIMCl离子液体的合成与应用研究

纤维素有天然纤维和合成纤维。随着石油资源的日益枯竭以及人们对环境保护的日益关注和重视，以石油为原料的合成纤维必将受到制约和抑制；而天然纤维来源丰富，又可再生；并且天然纤

学位

离子液体纤维素力学性能

位移动词“来/去”带宾能力的历时、共时考察

本文主要对位移动词“来／去”带宾语的情况进行了历时、共时的考察和研究，并对“来／去”的带宾能力和及物性的发展变化过程进行了深入地分析。文章以两个“三角”（“表—里—值”

学位

位移动词“来”“去”带宾能力及物性优先序列

女性主义如何干预艺术史

格里赛尔达·波洛克(Griselda Pollock)是重要的西方第二代女性主义艺术史家，是一位具有代表性的人物。在西方第一代女性主义者艺术史研究基础上，波洛克广泛融合了西方马克思主

学位

波洛克马克思主义第二代女性主义艺术

汉字“六书”中的转喻隐喻——基于《说文解字》的研究

按"认知——言语——文字"的思路初探汉字的产生过程,认为汉字历经"形——义"转喻期(象形会意指事)、"形——音"转喻隐喻期(指事形声假借转注)、"形——音+义"隐喻期(形声),

期刊

六书说文解字转喻隐喻转注

红色稀土硼酸盐荧光粉的合成及其发光性能的研究

等离子显示器商用红色荧光粉（Y,Gd）BO3：Eu3+的色纯度不太理想，主要是它的发射偏离了红色更加接近橙色。然而，由于它在真空紫外区的发光强度比其它荧光粉高，它仍是最常用的等离子显

学位

红色荧光粉硼酸盐合成发光性能

石榴皮染料对毛织物的染色性能研究

本文研究了资源丰富的石榴皮染料溶液的耐热水稳定性,分析了染浴pH值、染色温度对石榴皮染料上染毛织物的影响,并测试了所染毛织物的色牢度及抗紫外性能。研究结果表明,石榴

期刊

植物染料石榴皮染料染色毛织物抗紫外

大数据时代的数据科学家培养

大数据时代,最热门的职业是数据科学家(data scientist),而不是传统的信息科学家,也不是大数据工程师。大数据热潮促进了数据科学(data science)研究进入快速发展期,数据科学

期刊

数据科学数据科学家人才培养大数据

“立德树人”幼儿园“融爱蕴美”园本课程开发与实践——《幼儿园工作规程》背景下课程实践有感

新修订的《幼儿园工作规程》第一次将"德"提到了首位引领幼儿的全面发展。这与我园多年来以"融爱蕴美"教育理念来塑造园所文化、开发园本课程、践行育德育品的初衷相吻合。在

期刊

立德树人融爱蕴美品质课程

基于网络QoS的队列调度算法研究

近年来，随着因特网各种传输服务业务的迅猛增长，人们对互联网服务质量保证技术的研究非常活跃，涉及到的关键技术主要包括网络的资源分配和业务控制。本文主要研究高速互联网中的

学位

服务质量队列调度算法二进制堆排序拥塞控制随机早期检测

强化学习样本效率理论研究

其他学术论文