一种基于资格迹的并行强化学习算法

来源 :苏州大学学报(自然科学版) | 被引量 : 0次 | 上传用户:drlanrq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种重要的机器学习方法,然而在实际应用中,收敛速度缓慢是其主要不足之一.为了提高强化学习的效率,提出了一种基于资格迹的并行强化学习算法,并给出了算法实现的框架模型和一些可行的优化方法.由于使用资格迹的算法具有内在的并行性,可以使用多个计算结点分摊值函数表和资格迹表的更新工作,从而实现提高整个系统学习效率的目的.实验结果表明该方法与当前两种主要的并行强化学习算法相比具有一定的优势.
其他文献
2008年,受宏观经济整体运行走势影响,轻工产业发展跌宕起伏,负重前行,呈现前高后低的运行态势。上半年,轻工产业运行总体平稳:受国际金融危机的冲击,第四季度出现了较大幅度的负增长
本文通过解读《长江三角洲地区区域规划》,并结合浙江省具体实际情况,分析了《规划》对浙江的重大意义,提出了浙江包装产业应抓住机遇,争取在新的历史时期有新的突破。
多媒体教学手段能更生动、形象地展示教学内容,便于学生直观、深入地理解和掌握学习的知识,能大大提高教师的工作效率和学生的学习效率,为优质高效的课堂教学带来巨大的便利
本文利用斯涅耳定理,采用计算机模拟的方式给出光在折射率层状梯度分布的介质中的传播路径。
随着我国社会经济的快速发展和我国城市化进程的不断加快,基础设施在社会的发展中显得越来越重要。在城市化的整体发展过程中,建筑行业的发展起着基础性的作用,而混凝土的质量和
新时期,林业和林企要把湿地类型自然保护区的开发、运营、保护工作进行进一步系统化和科学化改进,创新湿地类型自然保护区的建设、管理的新机制,在维护湿地类型自然保护区稳定的
给出了与内点四阶精度有限差分紧致格式相对应的Navier—Stokes方程中的对流项和扩散项以及连续性方程和压力Possion方程在边界处的有限差分紧致格式的表达式,并以Taylor涡和
高超声速飞行器的气动特性比一般的飞行器更为复杂,选用BTT(Bank-to-Turn)技术,即倾斜转弯技术可以满足其对于气动外形的要求,但随之给动力学系统带来了快时变、严重非线性及强烈
主要针对*型二维突发性错误,构造了可纠正2个错误的纠错码,并且证明了所构造的纠错码是最优的.
以基于前掠翼布局及翼身融合一体化技术设计的W型无尾飞机为被控对象,采用线性二次型高斯/回路传输恢复LQG/LTR(Linear Quadratic Gaussian with Loop Transfer Recovery)多变