求解POMDP的动态合并激励学习算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户：liongliong500

【摘要】

：

把POMDP作为激励学习(Reinforcement Learning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性.但由于其求解的难度远远地超过了一般的Markov决策过程(MD

【作者】

：

殷苌茗王汉兴陈焕文谢丽娟

【机构】

：

上海大学理学院,上海大学理学院,长沙理工大学计算机与通信工程学院

【出处】

：

计算机工程

【发表日期】

：

2005年22期

【关键词】

：

部分可观测Markov决策过程激励学习动态合并信度状态 Partially observable Markov decision process Rei

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

把POMDP作为激励学习(Reinforcement Learning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性.但由于其求解的难度远远地超过了一般的Markov决策过程(MDP)的求解,因此还有许多问题有待解决.该文基于这样的背景,在给定一些特殊的约束条件下提出的一种求解POMDP的方法,即求解POMDP的动态合并激励学习算法.该方法利用区域的概念,在环境状态空间上建立一个区域系统,Agent在区域系统的每个区域上独自并行地实现其最优目标,加快了运算速度.然后把各组成部分的最优值

其他文献

专业市场税收征管信息系统

运用Oracle9i大型数据库、PowerBuilder8．0、VC＋＋6．0、3-DES数据加密算法、线性回归算法和报文交易技术以及语音卡编程技术开发了。套通用的专业市场税收征管信息系统软件，解决了

期刊

数据库应用集成3-DES线性回归算法报文交易专业市场管理Database Application integration 3- DES Lin

心跳骤停70分钟抢救成功1例

<正> 患者男,68岁,病案号102642,入院时间1995年12月23日。五年前因持续性心前区剧痛,大汗淋漓,恶心呕吐而诊断急性心尖前壁下壁心肌梗塞。月前,因心衰在当地用洋地黄和利尿

期刊

心跳骤停急救病例报告

基于Blackfin533 DSP的MPEG-4视频编码器设计

阐述的对象是基于Blackfin533 DSP的MPEG-4视频编码器。结合Blackfin533 DSP的结构特点和MPEG-4视频压缩标准的蛮时性要求，详细介绍了系统硬件设计、接口驱动程序设计、编码程

期刊

MPEG-4视频压缩DSPMPEG-4 Video compression DSP

浅析中西方颜色词的不同文化含义及其翻译

在中西方不同的文化中，同一颜色词语有着不同的文化内涵。以此，对颜色词语进行翻译时，一定要根据不同的文化背景，语境进行处理，切忌望文生义。

期刊

文化含义颜色望文生义

一种基于用户的Capabilities安全模型及其实现

分析了Linux下Capabilities安全模型的不完善性，并提出了一种基于用户的Capabilities安全模型，给出了在Linux下的实现方式。同时，还分析了如何利用改进后的安全模型来增强Linux

期刊

CapabilitiesLINUX访问控制Capabilities Linux Access control

急性心肌梗塞疼痛放射至头部1例

患者，男．63岁，离休干部．因发作性胸闷，双侧颞部，剧烈紧缩感样疼痛加重4小时，于1993年12月l。日20点30分急诊入院．

期刊

疼痛急性心肌梗塞放射头部双侧颞部发作性胸闷入院患者急诊

工业实时数据库的研究和设计

工业实时数据库在工业控制领域中处于重要的位置.文章分析了工业控制应用对实时数据库的要求,设计并实现了一个工业实时数据库,并详细介绍了该数据库的系统结构和在实现中所

期刊

实时数据库过程控制实时压缩海量数据RTDBProcess controlReal-time compressionLarge data

跑步对关节的好处大于危害

一般人多认为跑步比起其它运动更伤膝，不过，最新的研究指出，跑步对于关节的影响，较走路及其它运动更小。美国科学家追踪近90，000名跑步族群及健走族群发现，跑步族群中，罹患退化性关

期刊

髋关节置换术跑步危害退化性关节炎美国科学家运动健走

切实加强党的建设，不断提高党的执政能力

加强党的建设，不断提高党的执政能力，是关系中国社会主义事业兴衰成败、关系中华民族前途命运、关系党的生死存亡和国家长治久安的重大战略课题。只有解决好这一课题，才能保证我

期刊

党的建设党的执政民族前途

结果取向的解释方法——逆向裁判思维下的结果考量

结果取向的解释方法，即在客观实践中由具体操作者通过估测同一事物不同选择下的结果，来选择对自身以及社会最有利、损失最小的可行性措施。这种结果考量的解释方法往往从最终的

期刊

结果取向解释方法逆向裁判思维结果考量

求解POMDP的动态合并激励学习算法

与本文相关的学术论文