一种实时POMDP求解算法及其应用研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:Aslaen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
规划是人工智能研究的一个重要领域,特别是动态不确定环境 (如真实世界)中的规划问题,具有重要的理论意义和极其广泛的应用背景。 部分可观察的马尔可夫决策过程(Partially Observable Markov DecisionProcesses POMDP)对不确定环境中的连续决策进行了抽象建模。当前用 POMDP来解决不确定环境下的规划问题已经成为人工智能研究中的一个非常重要的研究领域。然而大部分的现实应用都有很大的状态空间和观察空间,求解大规模的有限阶段POMDP的最佳策略是PSPACE-complete难的。本文通过对POMDP 模型及已有求解方式的研究,针对动态不确定环境下的规划问题提出一种实时在线的POMDP求解方法,并将 POMDF,应用于 RoboCup2D 守门员决策。本文的主要工作包括以下几点: ●介绍POMDP模型,分析已有的POMDP求解算法。 ●通过对POMDP模型以及现有技术的分析,针对大规模POMDP求解难的问题,提出一种因子化的基于启发式搜索的实时求解算法FRTHS,该算法采用因子化的状态表示以降低维度灾难对计算复杂度的影响,用启发式搜索逐步扩展与或策略树和反向更新值函数的方法求解当前信念状态下最优动作。另外通过引入开关变量大大提高了搜索速度。 ●讨论了基于FRTHS求解算法的POMDP模型的应用范围,由于在线决策建立在离线计算的结果之上,且在实时决策时加入对决策时间的考虑,FRTHS能很好的适应高度实时的不确定环境。在传统的格子世界追捕问题中,比较了FRTHS和RTBSS的性能,结果显示FRTHS在实时性和精确性上优于RTBSS。在 RoboCup Soccer 中,采用基于领域知识的状态空间划分方法,成功的将 POMDP 模型应用于守门员决策,在守门员与前锋一对一的对抗实验中,基于POMDP的守门员比基于规则的守门员具有更好的防守能力。 最后对本文研究工作进行了总结,并对继续深入的可能进行了展望。希望能给进一步研究工作提供有用的参考。
其他文献
面临市场竞争压力,企业亟需按资源优势互补的原则,动态组建企业联盟,以便通过敏捷地应答市场的需求和变化,赢得竞争。虚拟组织(VO,Virtual Organization)工作于Internet环境,可将时
由于实际图像中包含了大量的冗余的信息,在图像表征中我们希望提取图像中最本质的视觉信息,在这点上与图像压缩有相通之处,因为在图像压缩中我们去除图像中冗余信息,将人眼视觉系
中药有其自身的特殊性,其质量控制涉及多个环节,影响产品质量指标的工艺参数选择一般是靠工人经验,这些参数值仅仅适用于特定的中药产品,当生产条件发生变化时产品质量就难以保证
基于Web的智能计算机辅助教学系统是近几年来随着计算机网络技术和人工智能理论迅速发展而新兴的研究课题,同时也是一个涉及计算机科学,教育学,心理学,认知科学和行为科学的复杂
传统的磁盘阵列系统在进行备份的时候需要长时间的“备份窗口”,这在要求7×24小时服务的现代商业应用中是不可接受的。快照技术是缩短“备份窗口”的良好解决方案,在磁盘阵
随着计算机技术的飞速发展,很多领域对分类方法提出了新的要求。如在生物信息学方面,人们通过DNA微阵列芯片实验可以得到基因表达谱数据,由于其数据高维的特点,如何从基因表达谱
随着油田开发的不断进行,在开发过程中积累了大量的生产、测井、试井资料。这些资料包含了丰富的油气藏信息,但因为缺乏相关的应用系统,使得这些宝贵的信息未得到充分的利用。因
笔迹鉴别是通过分析手写笔迹的书写风格来判断手写人身份的一门技术。近年来,社会需要对笔迹鉴别的研究提出了新的要求,模式识别和人工智能等相关学科的进展为笔迹鉴别的发展提
心血管疾病已成为全球卫生保健和卫生资源的沉重负担,具有病发突然、随机、高猝死率特点,要提高心脏病的救治系数,对心脏病人的实时性监护是解决问题的关键。分析现有心电监测系
无线网络依靠其提供随时随地方便接入的特点,在近几年发展速度已经领先于传统的有线网络,成为计算机网络领域最具发展前景的技术。为了提供无线接入环境,不仅硬件环境需要大范围