基于状态集结的值函数逼近

来源 :北京理工大学学报 | 被引量 : 0次 | 上传用户:baoxiuli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用更为紧凑的方法表示和存贮值函数 ,以求解大规模平均模型 Markov决策规划(MDP)问题 .通过状态集结相对值迭代算法逼近值函数 ,用 Span半范数和压缩映射原理分析算法的收敛性 .给出了状态集结后的 Bellman最优方程 .在 Span压缩条件下证明了该算法的收敛性 ,同时还给出了其误差估计 In a more compact way, the value function is expressed and stored to solve the large-scale averaging model Markov decision-making problem (MDP). By state-aggregated relative value iteration algorithm approximation value function, Span semi-norm and compression mapping principle analysis algorithm Convergence. Bellman’s optimal equation after state aggregation is given. The convergence of the algorithm is proved under Span compression and its error estimate
其他文献
为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7
为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7
结合 FMS故障诊断与维修系统 ,利用模糊数学的有关概念和方法 ,对 FMS故障诊断与维修系统故障规则库中模糊规则的模糊前提和模糊匹配等概念进行了定义和说明 .提出了 FMS故障
为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7
期刊
一、语文教学中的素质教育    素质教育的核心要求,就是要培养学生的创造精神和创造品质。那么在语文教学中,又该如何实施素质教育呢?    1.语文教学实施素质教育必须改变传统的教学思想  长期以来,由于应试教育的影响,语文教学仅限于教材中的几篇课文,片面注重文章的字、词、句、段、篇、章的教学以及作者的写作艺术,往往忽略了对学生世界观和人生观的教育,中学时代正是学生世界观和人生观的形成的黄金时期,语
随着计算机应用领域的不断拓宽,多媒体技术、网络技术的不断进步,多媒体计算机辅助教学已经成为衡量一个学校现代化水平的重要标准,多媒体课件的应用也成为评价一节课质量的