概率近似正确的强化学习算法解决连续状态空间控制问题

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:QQ0301
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线学习时长是强化学习算法的一个重要指标.传统在线强化学习算法如Q学习、状态–动作–奖励–状态–动作(state-action-reward-state-action,SARSA)等算法不能从理论分析角度给出定量的在线学习时长上界.本文引入概率近似正确(probablyapproximatelycorrect,PAC)原理,为连续时间确定性系统设计基于数据的在线强化学习算法.这类算法有效记录在线数据,同时考虑强化学习算法对状态空间探索的需求,能够在有限在线学习时间内输出近似最优的控制.我们提出算法的两种实
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
期刊
苑陵古城原住民必然不是最终消失于明末,应该早于此时。苑陵古城原住民并未被灭绝,而是移民他乡了。苑姓族群就是苑陵故城原住民的后裔。他们分期分批以不同的方式离开了祖先
在移动互联网时代,大数据运营已经成为各运营商业务发展的重要方向。传统语音的移动通信业务,加快面向数据增值业务转型,并面临着微信、淘宝等互联网新生信息服务商业模式冲
本文针对我国杜仲工程技术研究与产业发展进行了简要的探讨分析,对在杜仲工程发展过程中所存在的问题进行了分析,并提出了有效的应对措施,希望可以为行业的发展贡献一份力量
【正】对后进村党支部进行整顿,是党的十四届四中全会根据农村的实际情况和存在问题所作出的决定:用三年时间,分期分批地把处于软弱涣散和瘫痪状态的党支部整顿好。中共中央
随着经济的发展中小企业在我国经济中扮演日益重要的作用,但由于其自身因素的限制,其发展面临一系列问题,其中融资问题尤为严重。中小企业因为缺乏财务风险防范意识,容易引发财务
肾移植是治疗终末期肾病的有效方法之一。但肾移植只是一种治疗手段,如果患者未按照医师指导的去做,就有可能导致移植肾失败,肾移植术后的健康教育,能使患者更好地实现自我护
目的探讨产钳助产技术对产妇分娩方式及母婴结局的影响。方法选择2012年1月至2014年1月分娩困难行剖宫产术产妇100例作为对照组,再选择2016年1月至2018年1月分娩困难使用阴道
文化软实力是全球化背景下的强国之道。中国发展文化软实力,应探索富有创造性的发展路径。中国毗邻韩国,发展文化产业在总结自身经验的同时,应与韩国文化产业发展战略联系起
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
期刊