一种基于资格迹的并行强化学习算法

来源 :苏州大学学报(自然科学版) | 被引量 : 0次 | 上传用户：drlanrq

【摘要】

：

强化学习是一种重要的机器学习方法,然而在实际应用中,收敛速度缓慢是其主要不足之一.为了提高强化学习的效率,提出了一种基于资格迹的并行强化学习算法,并给出了算法实现的

【作者】

：

杨旭东刘全李瑾

【机构】

：

苏州大学计算机科学与技术学院

【出处】

：

苏州大学学报(自然科学版)

【发表日期】

：

2012年1期

【关键词】

：

并行算法强化学习 Sarsa(λ)学习 Tic-tac-toe parallel algorithms reinforcement learning Sars

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是一种重要的机器学习方法,然而在实际应用中,收敛速度缓慢是其主要不足之一.为了提高强化学习的效率,提出了一种基于资格迹的并行强化学习算法,并给出了算法实现的框架模型和一些可行的优化方法.由于使用资格迹的算法具有内在的并行性,可以使用多个计算结点分摊值函数表和资格迹表的更新工作,从而实现提高整个系统学习效率的目的.实验结果表明该方法与当前两种主要的并行强化学习算法相比具有一定的优势.

其他文献

2008年浙江省轻工产业发展报告

2008年，受宏观经济整体运行走势影响，轻工产业发展跌宕起伏，负重前行，呈现前高后低的运行态势。上半年，轻工产业运行总体平稳：受国际金融危机的冲击，第四季度出现了较大幅度的负增长

期刊

产业轻工浙江省宏观经济金融危机运行

浙江包装产业的机遇与作为——解读《长江三角洲地区区域规划》

本文通过解读《长江三角洲地区区域规划》,并结合浙江省具体实际情况,分析了《规划》对浙江的重大意义,提出了浙江包装产业应抓住机遇,争取在新的历史时期有新的突破。

期刊

区域规划包装产业作为

多媒体教室的使用与管理中注意的几个问题

多媒体教学手段能更生动、形象地展示教学内容,便于学生直观、深入地理解和掌握学习的知识,能大大提高教师的工作效率和学生的学习效率,为优质高效的课堂教学带来巨大的便利

期刊

多媒体教室使用与管理注意的问题

层状梯度折射率介质中光线的计算机模拟

本文利用斯涅耳定理，采用计算机模拟的方式给出光在折射率层状梯度分布的介质中的传播路径。

期刊

折射率层状梯度计算机模拟介质index of refraction layer gradient Computer Modeling

建筑施工中混凝土浇筑施工技术探讨

随着我国社会经济的快速发展和我国城市化进程的不断加快，基础设施在社会的发展中显得越来越重要。在城市化的整体发展过程中，建筑行业的发展起着基础性的作用，而混凝土的质量和

期刊

建筑施工混凝土施工技术

林业部门湿地类型自然保护区分析与对策

新时期，林业和林企要把湿地类型自然保护区的开发、运营、保护工作进行进一步系统化和科学化改进，创新湿地类型自然保护区的建设、管理的新机制，在维护湿地类型自然保护区稳定的

期刊

林业部门湿地自然保护区建设管理资金Forestry department Wetland Nature reserve area Constr

关于不可压流体Navier—Stokes方程的四阶精度有限差分紧致格式的边界处理

给出了与内点四阶精度有限差分紧致格式相对应的Navier—Stokes方程中的对流项和扩散项以及连续性方程和压力Possion方程在边界处的有限差分紧致格式的表达式，并以Taylor涡和

期刊

Navier—Stokes方程紧致差分格式边界处理高精度Navier-Stokes equations compact difference met

高超声速飞行器BTT非线性控制器设计与仿真

高超声速飞行器的气动特性比一般的飞行器更为复杂，选用BTT（Bank-to-Turn）技术，即倾斜转弯技术可以满足其对于气动外形的要求，但随之给动力学系统带来了快时变、严重非线性及强烈

期刊

非线性动态逆倾斜转弯飞行控制系统高超声速nonlinear dynamic inversion bank-to-turn flight control

二维平面上的＊型2-突发性错误纠错码

主要针对＊型二维突发性错误,构造了可纠正2个错误的纠错码,并且证明了所构造的纠错码是最优的.

期刊

二维突发性错误＊模型纠错码校验矩阵two-dimensional error ＊ model error-correcting code chec

W型无尾飞机横航向多变量鲁棒控制设计

以基于前掠翼布局及翼身融合一体化技术设计的W型无尾飞机为被控对象,采用线性二次型高斯/回路传输恢复LQG/LTR（Linear Quadratic Gaussian with Loop Transfer Recovery）多变

期刊

W型无尾飞机线性二次型高斯/回路传输恢复不确定性随机干扰鲁棒性W-shaped tailless aircraft linear quadratic

一种基于资格迹的并行强化学习算法

与本文相关的学术论文