分层强化学习综述

来源 :智能系统学报 | 被引量 : 0次 | 上传用户:yjnter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习(reinforcement learning)是机器学习和人工智能领域的重要分支,近年来受到社会各界和企业的广泛关注。强化学习算法要解决的主要问题是,智能体如何直接与环境进行交互来学习策略。但是当状态空间维度增加时,传统的强化学习方法往往面临着维度灾难,难以取得好的学习效果。分层强化学习(hierarchical reinforcement learning)致力于将一个复杂的强化学习问题分解成几个子问题并分别解决,可以取得比直接解决整个问题更好的效果。分层强化学习是解决大规模强化学习问题的潜在途径,然而其受到的关注不高。本文将介绍和回顾分层强化学习的几大类方法。
其他文献
随着生产力的提高和科技的空前发展,人类一方面借助于各种各样的科技手段,从自然中获得了不可胜数的资源,创造了前所未有的财富和一个又一个的奇迹,另一方面却面临着人与自然
《旅行,人生最有价值的投资》是投资大师吉姆·罗杰斯非常具有影响力的经典著作,记录了罗杰斯在20世纪90年代初做的一次惊险刺激的环球旅行。历时22个月,近10万公里的路程,横
事业单位内部的会计控制体系应该是比较严谨的,在构建过程中,我们应当站在全面统筹的立场,将全新的控制办法进行运用,使整体的建设效果能够完善起来,并且抓住重点,对单位内部
目的针对日益增多的自然灾害现状,寻求途径方法,为提升军队医院灾害应急医学救援能力提供支持。方法重点介绍灾害现场的主要特点,并分析灾害所致伤情和灾害救援的难点。结果对提
实行"网上联合年检"是为了加快电子政务建设,提高年检工作效率,规范年检审查行为的要求而进行的一项工作。本文通过对"哈尔滨经济技术开发区企业联合年检系统"的开发背景、需求分
随着国家医药卫生体制改革的不断深化,医院不仅要面对激烈的市场竞争,还要应对各种突如其来的危机。如果忽视这些危机或不能对危机采取有效措施,将给医院发展带来不可估量的
审计判断是审计的工作者按照自身的专业知识及多年积累的经验,审计判断的一个重要的基本方法就是要识别及比较,而审计判断的内容就有审计事项的重要判断,审计判断的结果是一种估
该文研究了均值在奇异特征分解算法(POD)中的影响机制.首先,给出了POD方法中时间系数的相关基本性质.其次,基于矩阵分析理论,引入全信号及去除均值部分信号的相关矩阵,且从理
本文分析群体性医患纠纷事件的特点,提出军队医院应客观正确面对医患纠纷,争取患者和亲属的理解认同,加强与地方政府、公安的沟通协调,依法打击“医闹”等非法团伙,严密控制事态的
目的探讨晚期妊娠合并子宫肌瘤恰当的临床处理方法.方法对1997年5月至2007年5月平安医院20例晚期妊娠合并子宫肌瘤的资料进行回顾性分析。结果20例妊娠合并子宫肌瘤的患者,剖宫