基于动作空间划分的分层强化学习研究

来源 :贵州大学 | 被引量 : 5次 | 上传用户:vitchen02
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习的重要分支,它通过智能体与环境交互,寻找解决问题的最优策略。但在实际应用中,因为状态维度的增加产生的“维数灾难”现象,严重降低了强化学习的效率。分层强化学习是一种拓展的强化学习方法,可以一定程度上缓解“维数灾难”的影响。不过MAXQ、Option、HAM等一些典型的分层强化学习方法都需要在学习前人工构造层次结构,在先验知识不足时难以得到理想的效果。在此基础上,一些已提出的自动分层方法通过对环境状态进行抽象、分解来发现子目标,但是在环境状态中不具有明显的子目标时,分层效果也不理想。针对这些问题,本文做了如下两点工作:(1)提出一种基于动作空间的自动分层方法。通过划分动作子集,分析agent在完成目标的过程中动作执行的次序,推论出动作子集之间的上下层关系,利用动作子集间的关系构造出层次结构。(2)为了使构造出来的层次结构可以使用MAXQ方法寻找最优策略,本文对MAXQ方法中子任务终止的条件做出了修改,并且说明了如何动态调整任务结构。实验结果表明,本文提出的自动分层方法能够有效构建任务结构,并可以与MAXQ方法结合学习分层结构,而且能够更高效的寻找最优策略。
其他文献
本文首先对梅州中心城区沿江沿湖现状城市风貌做出详细分析后,再主要从城市风貌塑造的各个要素上进行相关的设计与构思,本文希望对这些控制要素的分析能够有利于对其他不同城
<正>1临床资料1.1一般资料2002年2月至2005年10月我院鱼腥草注射液发生不良反应78例。其中男45例,女33例;年龄15~75岁。用药剂量及方法:每次1ml/kg,加入0.9%氯化钠注射液或5%(
个人所得税与我们每个人密切相关也倍受关注,我国修改后的最新个税法于2011年9月1日起施行,个税免征额提高到3500元;纳税人纳税负担减轻,工薪收入者的纳税面由目前的约28%下
<正>10月30日,全军政治工作会议在福建省上杭县古田镇召开,习近平总书记31日出席会议并发表重要讲话。对于熟悉中国近现代史的人来说,古田这个名字并不陌生。1929年12月28日
平场全息凹面光栅的理想像面应为一平面,此时子午焦线与弧矢焦线均位于像面内且彼此重合,形成接近理想像点的光谱像。但子午焦线总是存在弯曲,只有弧矢焦线在满足一定条件的
欧债危机以及2008年美国次贷危机引发了全球范围内的金融危机,都说明了由于经济全球化的推进,风险效应会在一国金融市场内迅速地传递到世界范围内,而不是局限于本国之内,因此
随着经济的发展和科学技术的进步,社会的电气化程度越来越高。非线性电力电子装置在运行过程中会不断向电力系统注入谐波,对用电设备的正常工作以及电力系统的安全稳定运行都
<正> (一) 二十世纪初,中国资本主义有了初步发展,新兴资产阶级逐步形成,涌现出资产阶级、小资产阶级知识分子,他们在戊戌变法和义和团反帝斗争相继失败后,看到清朝廷成为帝
采用中国家庭追踪调查北京市的相关数据,结合北京市大病保险政策,建立大病保险基础补偿方案、收入分层补偿方案、年龄与收入分层补偿方案,并根据三种方案对家庭灾难性医疗支
关于《红楼梦》中人名的翻译,对霍译本的研究已较多,而对杨译本基本是一笔带过。实际上,关于威妥玛音译系统,许多学人一直似懂非懂。由于姓名文化的重要性,加上《红楼梦》作