平均报酬指标多步递推最小二乘即时差分学习

来源 :内蒙古大学学报(自然科学版) | 被引量 : 0次 | 上传用户：linyuan0213

【摘要】

：

对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究．近似器由权值进行增量更新的固定特征函数线性加权组合构成，在对已有的算法进行比较分析的基

【作者】

：

李春贵刘永信王萌

【机构】

：

广西工学院计算机工程系,内蒙古大学电子信息工程学院

【出处】

：

内蒙古大学学报(自然科学版)

【发表日期】

：

2008年5期

【关键词】

：

即时差分学习平均报酬函数近似最小二乘递推 temporal-difference learning average reward functio

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究．近似器由权值进行增量更新的固定特征函数线性加权组合构成，在对已有的算法进行比较分析的基础上，利用线性参数估计理论的有关成果，提出了基于值函数线性近似表示的平均报酬指标多步递推最小二乘即时差分强化学习算法，并给出了其一致收敛性证明．

其他文献

重金属Cd和Zn对水生浮游动物大型蚤（Daphnia magna）联合毒性的研究初探

近年来,水体中重金属污染呈现多样化、复杂化,但有关多种金属的联合毒性机制的探讨尚少.选择大型蚤（Daphnia magna）作为受试生物,以蚤体内的超氧化物歧化酶（SOD）活性为毒性指标,

期刊

重金属CdZN联合毒性大型蚤超氧化物歧化酶heavy metal Cd Zn joint toxicity Daphnia rnag

非线性哈密顿控制系统的能控区域的延拓

讨论了非线性哈密顿控制系统的能控区域的延拓问题．证明了控制系统在一个能控区域处满足某种性质时，控制系统的能控区域能够进一步扩大．

期刊

辛流形非线性哈密顿控制系统能控性回归性Symplectic manifold nonlinear Hamiltonian controlling sy

知识经济时代的教育理念

教育这个广泛的概念，与社会生活的各个方面都存在着密切的联系，可以说，凡属社会生活的内容都存在着教育问题。所以，确立正确的教育理念，倡导先进的现代教育观，对教育活动所能达到的

期刊

教育理念现代教育观教育活动教育问题知识经济时代社会生活联系确立倡导正确

平均报酬指标多步递推最小二乘即时差分学习

其他学术论文