M-POMDP模型及其划分求解算法

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:sbt200905
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对多M-POM DP问题(多A gen t部分可观察M arkov决策问题)中存在的动作空间搜索量随A gen t个数呈指数倍增长的问题,该文给出了一种基于A gen t依赖关系的划分算法,在满足收益可分解的条件下,将A gen t集合按动作依赖关系分为几组。在固定了一些A gen t的策略后,剩下的A gen t只依赖于自己组内的A gen t的动作,从而变为一个比较独立的决策问题,降低求解问题的复杂度。通过实验,证明了这种方法可以减少A gen t搜索空间,从而提高求解效率。
其他文献
本文根据中小企业的战略特点和人力资源规划实施的现状,构建了中小企业基于战略的人力资源规划的模型,考虑企业发展阶段、采取的竞争战略以及外部环境三方面因素,并就基于战
面对当今变化迅速、竞争激烈的服装市场,加强品牌建设,实施名牌战略,是提升我国服装业整体竞争力的重要举措,也是服装企业可持续发展的关键因素。通过对我国服装品牌的发展和
随着经济的发展,自杀已经成了沉重的社会话题。尤其是高校学生自杀更是近几年来颇受关注的问题。他们并不是因为自然死亡而丧失生命,而是由于对生命的重要性和对死亡理解的淡
西方现代性与西方审美现代性存在着一致性和冲突。随着西方现代性的到来,反传统、宗教的衰落日益普遍,西方审美现代性逐渐出现,现代审美经验得以确立。反传统、宗教的衰落和
从资源环境、经济发展和社会和谐3个方面构建城市土地可持续利用评价指标体系。采用改进灰色关联分析法,对湖南省城市土地可持续利用水平进行综合评价。结果表明:(1)2000—20
巧妙运用卷烟、啤酒、小汽车、摩托车的临界点进行消费税纳税筹划,将涉税事项控制在临界点以下,能够使企业减轻纳税负担,增加税后利润。
超宽带冲激雷达是一种新体制雷达,其发射信号是无高频载频,宽度仅为纳秒级的冲激脉冲。得益于这种特殊的发射信号,超宽带冲激雷达具有优异的探测性能和广泛的应用前景。自然
《推背图》推算了大唐以后中国2000多年的国运盛衰,堪称传统文化中最具独特魅力的一部预言奇书。它为历朝统治者所忌惮,长期以来被当成禁书,但各种手抄本仍广为流传,西方的20
<正>我国工业控制系统信息安全标准尚不健全,尚在发展初期,我们非常欢迎各位专家、企业积极参与到工控系统的标准制订中来。国外工业控制系统信息安全标准国际上,研究工控系
本文设计了一款用陀螺仪遥控的智能车,包括无线控制系统和智能小车系统,无线控制系统包括MPU6050模块和无线发送模块,智能小车系统包括电机驱动模块、无线信号接收模块、超声