平均报酬指标多步递推最小二乘即时差分学习

来源 :内蒙古大学学报(自然科学版) | 被引量 : 0次 | 上传用户:linyuan0213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究.近似器由权值进行增量更新的固定特征函数线性加权组合构成,在对已有的算法进行比较分析的基础上,利用线性参数估计理论的有关成果,提出了基于值函数线性近似表示的平均报酬指标多步递推最小二乘即时差分强化学习算法,并给出了其一致收敛性证明.
其他文献
近年来,水体中重金属污染呈现多样化、复杂化,但有关多种金属的联合毒性机制的探讨尚少.选择大型蚤(Daphnia magna)作为受试生物,以蚤体内的超氧化物歧化酶(SOD)活性为毒性指标,
讨论了非线性哈密顿控制系统的能控区域的延拓问题.证明了控制系统在一个能控区域处满足某种性质时,控制系统的能控区域能够进一步扩大.
教育这个广泛的概念,与社会生活的各个方面都存在着密切的联系,可以说,凡属社会生活的内容都存在着教育问题。所以,确立正确的教育理念,倡导先进的现代教育观,对教育活动所能达到的