一种结合Tile Coding的平均奖赏强化学习算法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户：maohhmaohh

【摘要】

：

平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,

【作者】

：

王巍巍陈兴国高阳

【机构】

：

南京大学计算机科学与技术系计算机软件新技术国家重点实验室,

【出处】

：

模式识别与人工智能

【发表日期】

：

2008年04期

【关键词】

：

强化学习马尔可夫决策过程(MDP) R-学习 G-学习平均奖赏

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参数的更新条件.此外对结合函数估计的 G-learning 算法的性能表现及其对各种参数的敏感程度进行针对性研究.最后给出实验结果及分析.实验结果证明 R-learning 和 G-learning 在ε较小的情况下解容易发散,同时也说明特征抽取方法 Tile coding 的有效性,且可作为其它特征抽取方法的参考标准. The average rewards reinforcement learning is an important non-discount optimal framework in reinforcement learning, and most of the work is mainly done in the discrete domain at present.This paper attempts to solve the problem of continuous state space by combining the average rewards reinforcement learning algorithm and function estimation , And modify the parameters updating conditions in R-learning and G-learning according to the change of state domain.In addition, the performance of G-learning algorithm and the sensitivity to various parameters are studied. Finally, the experimental results and analysis are given.The experimental results show that the solution of R-learning and G-learning is easy to diverge when ε is small, and also illustrates the effectiveness of the feature extraction method Tile coding and can be used as a reference for other feature extraction methods standard.

其他文献

尿激酶治疗下肢深静脉血栓的纤溶研究

35例下肢深静脉栓塞(lower legs deep venous thrombosis,LDVT)患者,应用尿激酶治疗,探讨治疗前后纤溶酶原活性(PLG:A),纤溶酶活性(pL:A),组织纤溶酶原激活物(t-PA),组织纤溶

期刊

尿激酶纤溶酶原下肢深静脉栓塞纤溶酶活性激活物抑制物抗原性造影复查血栓形成活性作用

汪家寨煤矿煤中汞的含量分布与赋存状态

采用原子荧光光度计测定了汪家寨煤矿煤中的汞含量,通过筛分、浮沉实验研究了煤中汞的分布,采用逐级化学提取研究了煤中汞的赋存状态.结果表明:汪家寨煤矿煤中的汞含量为0.41

期刊

煤汞含量分布赋存状态

高血钾症30例心电图回顾性分析

本文对本院1985～1990年间30例高血钾症心电图行回顾性分析,并对不典型的心电图改变、容易漏诊之处及QTc间期在鉴别诊断的价值进行讨论。过去这方面报道较少。 This article r

期刊

高血钾症心电图改变血钾过多心电描术记鉴别诊断室性早搏左右束支阻滞急性心肌梗塞结间束心律失常者

煤矿用钻机联动夹持器回夹问题的分析与修正

建立了复式夹持器联动系统的传递函数,分析了造成夹持器回夹缺陷的主要因素,采用由阻尼器及蓄能器组成的修正装置对夹持器联动系统进行了校正,并以某型钻机为例,运用仿真软件

期刊

煤矿用钻机复式液压夹持器钻进联动卸钻联动

且听深度的酷炫装备GoldenEar ForceField 5有源超低音音箱

在写ForceField 5的评论文章前,GoldenEar的音箱我曾评论过两款,一款是半主动式的Triton Cinema Two落地音箱,另一款是Aon 3书架音箱。虽然所接触的产品并不多,但却让我了解

期刊

装备书架音箱设计理念产品外形体积时尚元素低音音箱低频能量半主动式英寸箱体声压能力论文发烧单元

糖尿病患者心脏舒张功能的超声心动图改变

本文应用多功能超声心动仪检测31例糖尿病(DM)患者及42名正常人,反映左、右心室舒张功能的20项指标。发现DM组EPSSb增高,EF斜率降低,左、右室的E峰流速积分及其与全舒张期流

期刊

超声心动图心脏舒张功能超声心动描记术舒张期流速舒张功能减退收缩功能右心室舒张功能心肌病超声心动仪最大流速

每天吃花生有益健康长寿

美国一项大型研究发现,吃花生和坚果能降低心脏病和中风死亡风险,有益健康长寿。研究团队对美国西南部7万多人,以及约1,3万名中国上海居民进行了跟踪研究。对参与者每天食用

期刊

上海居民风险降低美国西南部死亡风险食用量同样情况豆科植物营养成分观察性

大学英语模仿式背诵教学法探讨

摘要: 从古至今,背诵一直被视为人们学习的一种有效途径,英语的学习也不例外,模仿式背诵式学习既能让学生学到应有的语法知识,又能让他们了解说话人的心情,还有助于听力的训练。　　关键词: 大学英语模仿式背诵教学法　　　　古人云:“数诵以贯之,思索以通之。”意思是背诵能帮助思考,思考须借助背诵。“在外语学习的过程中,教学者要加大语言材料和语言实践的量,特别要注意扩大语言材料的输入量”。语言的输入有

期刊

模仿式学习语言语言输出说话人语言学习过程言语学习语言习得过程弱读外语教学第二语言

车辆维护省油法则

加强维护能省油维护车轮能省油:经常检查轮胎的磨损程度。如果轮胎磨损严重,会经常出现打滑现象,增加耗油量,此时应该更换新轮胎。如果轮胎充气不足,耗油量也会增加。如果行

期刊

车辆维护轮胎磨损耗油量磨损程度轮胎充气打滑现象检查车轮

嗜酸粒细胞白血病

嗜酸粒细胞白血病是一种少见类型白血病。急性嗜酸粒细胞白血病属于急性非淋巴 Eosinophilic leukemia is a rare type of leukemia. Acute eosinophilic leukemia is acut

期刊

原始粒细胞嗜酸粒细胞过氧化物酶染色早幼粒细胞阿克拉霉素阿糖柔红霉素细胞型肺部浸润杆状核

一种结合Tile Coding的平均奖赏强化学习算法

与本文相关的学术论文