基于Option自动生成的分层强化学习方法研究

来源 :长沙理工大学 | 被引量 : 11次 | 上传用户:qinglong21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习通过试错与环境交互而获得策略的改进,其自学习和在线学习的特点使其在实际中获得了越来越广泛的应用。但是,强化学习一直被“维数灾难”所困扰。分层强化学习(HRL)是为解决强化学习的维数灾问题而提出的,并取得了显著进展。分层强化学习的实质是通过在强化学习的基础上增加“抽象”机制,把整体任务分解为不同层次上的子任务,使每个子任务在规模较小的子问题空间中求解,并且求得的子任务策略可以复用,从而加快问题的求解速度。代表性成果有Option、HAM和MAXQ等方法。本文探讨一种新的分层强化学习方法—AOM,并深入研究该算法所涉及的理论和计算问题,以及该方法在实际应用中需要解决的问题。具体围绕以下两个方面工作展开:(1)设计了AOM分层强化学习方法,给出了理论框架和学习算法。该方法基于蚁群聚类算法(ACCA)自动生成Option分层,并利用了MAXQ良好的在线学习能力。实验结果证明了AOM学习方法的有效性;(2)提出了基于ACCA的AOM任务自动分层算法,算法基于ACCA实现状态空间聚类,以生成的状态聚类子空间为基础构造子任务,实验表明该方法克服了以往任务自动分层算法对状态空间可分割性的高度依赖问题。
其他文献
20世纪90年代,本体成为人工智能研究领域的热门课题。本体的定义是共享概念模型的明确的形式化规范说明。一个本体主要包括概念、关系、实例、规则和方法。根据本体的定义,在
随着社会日益信息化,社会的日常运行越来越依赖于软件系统,使得软件质量,尤其是软件可靠性已经成为一个不容忽视的问题。为了提高软件质量,软件可靠性测试在整个软件生命周期
随着社会的发展和人类的进步,体育竞技现在已经成为一个国家和民族文明进步的一个重要标志。为了体育竞技水平的提高,越来越多的国家不断将新的科技应用到体育竞技之中。数据
ETL(Extract Transformation Loading,ETL)就是从多个异构数据源获取业务数据,进行数据清洗和和转换,存储到数据仓库的过程。ETL是BI/DW的核心和灵魂,按照统一的规则集成并提
运动目标跟踪是计算机视觉领域中一个非常活跃的课题,它融合了图像处理、模式识别、人工智能和自动控制等领域的先进技术,并具有非常广泛的应用领域,包括视频智能监控、人机交互
多输入多输出—正交频分复用(Multiple-Input Multiple-OutputOrthogonalFrequency Division Multiplexing,MIMO-OFDM)系统因其能大幅度提高系统容量而成为下一代移动通信的
语义解析(semantic parsing)指的是将自然语言句子转换成其意义表示的过程。近年来,英文语义解析的研究成果丰硕,特别是基于组合范畴文法(combinatory categorialgrammar, CCG)
针对政府部门、企事业单位信息化建设过程中大量的信息共享和数据交换的需求,本文通过对国内外数据交换研究现状的分析,结合上海海事局数据交换平台的建设,提出了利用本体技
视频中的非特定异常事件时空位置检测在学术界和工业界都受到广泛关注。能够自动检测监控视频中的异常事件的智能监控系统对于公共安全有着极其重要的意义,传统的监控系统严
随着Internet应用的迅速发展,网络上信息迅速增长,信息种类也越来越多,人们面对太多的信息无法选择和消化,Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,也