求解POMDP的动态合并激励学习算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:liongliong500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
把POMDP作为激励学习(Reinforcement Learning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性.但由于其求解的难度远远地超过了一般的Markov决策过程(MDP)的求解,因此还有许多问题有待解决.该文基于这样的背景,在给定一些特殊的约束条件下提出的一种求解POMDP的方法,即求解POMDP的动态合并激励学习算法.该方法利用区域的概念,在环境状态空间上建立一个区域系统,Agent在区域系统的每个区域上独自并行地实现其最优目标,加快了运算速度.然后把各组成部分的最优值
其他文献
运用Oracle9i大型数据库、PowerBuilder8.0、VC++6.0、3-DES数据加密算法、线性回归算法和报文交易技术以及语音卡编程技术开发了。套通用的专业市场税收征管信息系统软件,解决了
<正> 患者男,68岁,病案号102642,入院时间1995年12月23日。五年前因持续性心前区剧痛,大汗淋漓,恶心呕吐而诊断急性心尖前壁下壁心肌梗塞。月前,因心衰在当地用洋地黄和利尿
阐述的对象是基于Blackfin533 DSP的MPEG-4视频编码器。结合Blackfin533 DSP的结构特点和MPEG-4视频压缩标准的蛮时性要求,详细介绍了系统硬件设计、接口驱动程序设计、编码程
在中西方不同的文化中,同一颜色词语有着不同的文化内涵。以此,对颜色词语进行翻译时,一定要根据不同的文化背景,语境进行处理,切忌望文生义。
分析了Linux下Capabilities安全模型的不完善性,并提出了一种基于用户的Capabilities安全模型,给出了在Linux下的实现方式。同时,还分析了如何利用改进后的安全模型来增强Linux
患者,男.63岁,离休干部.因发作性胸闷,双侧颞部,剧烈紧缩感样疼痛加重4小时,于1993年12月l。日20点30分急诊入院.
工业实时数据库在工业控制领域中处于重要的位置.文章分析了工业控制应用对实时数据库的要求,设计并实现了一个工业实时数据库,并详细介绍了该数据库的系统结构和在实现中所
一般人多认为跑步比起其它运动更伤膝,不过,最新的研究指出,跑步对于关节的影响,较走路及其它运动更小。美国科学家追踪近90,000名跑步族群及健走族群发现,跑步族群中,罹患退化性关
加强党的建设,不断提高党的执政能力,是关系中国社会主义事业兴衰成败、关系中华民族前途命运、关系党的生死存亡和国家长治久安的重大战略课题。只有解决好这一课题,才能保证我
结果取向的解释方法,即在客观实践中由具体操作者通过估测同一事物不同选择下的结果,来选择对自身以及社会最有利、损失最小的可行性措施。这种结果考量的解释方法往往从最终的