基于连续时间半马尔可夫决策过程的Option算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:abc0454
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其“维数灾”和“建模难”问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势. For large-scale or complex stochastic dynamic programming systems, the hierarchical structural features or the introduction of hierarchical control can be used to solve the problem of dimensionality disaster and Hierarchical Reinforcement Learning (HRL) Modeling difficult "problem.HRL belonging to the sample data-driven optimization method, through the space / time abstraction mechanism, can effectively accelerate the strategy learning process.Among them, Option method can be decomposed into a number of sub-target system tasks to learn and implement tasks, Hierarchical structure is clear and representative of the HRL method is one of the traditional Option algorithm is mainly based on the discrete-time semi-Markov Decision Processes (SMDP) and discount performance criteria based on the direct So as to solve the infinite task of continuous time.Therefore, under the continuous-time SMDP framework and its performance potential theory, combined with the existing Option algorithm idea, using the related learning formula of continuous-time SMDP, we establish a method that is suitable for the average or discount performance criterion Continuous time unified Option stratified reinforcement learning model, and gives the corresponding online learning optimization algorithm.Finally, through the robot garbage collection The system is a simulation example, which shows the effectiveness of this HRL algorithm in solving infinite task optimization control problems in continuous time. It also shows that compared with continuous-time simulated annealing Q learning, it has the advantages of saving storage space, optimizing the precision and optimizing the speed Fast advantage.
其他文献
数十年来,当代书法展览凝聚了越来越多的书法创作者,一方面推动了书法的群众化进程,一方面也将人们对书法的认识逐渐引向深入。人们也越来越认识到,参展的书法作品不全是功力
新世纪以来,台湾新青春电影已然成为台湾新电影崛起的重要标志和类型。台湾特殊的文化历史时空将台湾新青春电影的文化身份的定位推至问题的前端,而地域特征是其电影发展的重
中国外贸贫困化增长原因初探华东师范大学国际商学院廖发达“贫困化增长”亦称“悲惨的增长”,是印度经济学家巴格瓦蒂①于1958年针对当时发展中国家“贸易条件不断恶化”这一国际
随着经济开放度的不断提升,人民币汇改的持续推进,我国企业面临的汇率风险日益突出,外汇衍生品是企业管理汇率风险的有效工具,发展我国外汇衍生品市场具有重大的现实意义和战
慢性肾衰竭(CRF)是各种慢性肾脏疾病的最终结局,主要以代谢紊乱和毒素累积为特征,呈进展性加重,最终进展为终末期肾脏病,需要替代治疗。中医认为其发生与脾肾虚损则运化失职,分
目的:建立妇乐颗粒中马钱苷含量测定方法。方法:采用高效液相色谱法,Agela Venusil MP C18色谱柱(250 mm×4.6 mm,5μm),乙腈-水(10:90)为流动相,流速为1.0 ml·min-1,检测波长为
互联网金融是当前广受关注和争议的话题。互联网金融的迅猛发展加剧了金融市场的竞争,本文对互联网金融与传统金融的关系,互联网金融存在的风险,互联网金融对监管提出的挑战,
<正>"金融业要在供给侧结构性改革中担当合格践行者、高效推动者和创新引领者。"这是中国银行董事长田国立在本刊发表新春畅想时的一句肺腑之言,也深深道出了该行立志"担当社
本对互联网金融发展中的三个问题进行探讨,分别是互联网金融在中国火爆发展的根本缘由,互联网金融提供的是信息服务还是金融服务及其提供的是特定服务还是公众服务,以期对互
1931年日本侵华战争的爆发,让中国成为西方世界关注的重点之一,也让中国成为欧洲战争爆发以前的“新闻热点”。在这一时期,大量的美国记者前仆后继地来到中国,寻找最具价值的新闻