论文部分内容阅读
规划是人工智能研究的一个重要领域,特别是动态不确定环境 (如真实世界)中的规划问题,具有重要的理论意义和极其广泛的应用背景。
部分可观察的马尔可夫决策过程(Partially Observable Markov DecisionProcesses POMDP)对不确定环境中的连续决策进行了抽象建模。当前用 POMDP来解决不确定环境下的规划问题已经成为人工智能研究中的一个非常重要的研究领域。然而大部分的现实应用都有很大的状态空间和观察空间,求解大规模的有限阶段POMDP的最佳策略是PSPACE-complete难的。本文通过对POMDP 模型及已有求解方式的研究,针对动态不确定环境下的规划问题提出一种实时在线的POMDP求解方法,并将 POMDF,应用于 RoboCup2D 守门员决策。本文的主要工作包括以下几点:
●介绍POMDP模型,分析已有的POMDP求解算法。
●通过对POMDP模型以及现有技术的分析,针对大规模POMDP求解难的问题,提出一种因子化的基于启发式搜索的实时求解算法FRTHS,该算法采用因子化的状态表示以降低维度灾难对计算复杂度的影响,用启发式搜索逐步扩展与或策略树和反向更新值函数的方法求解当前信念状态下最优动作。另外通过引入开关变量大大提高了搜索速度。
●讨论了基于FRTHS求解算法的POMDP模型的应用范围,由于在线决策建立在离线计算的结果之上,且在实时决策时加入对决策时间的考虑,FRTHS能很好的适应高度实时的不确定环境。在传统的格子世界追捕问题中,比较了FRTHS和RTBSS的性能,结果显示FRTHS在实时性和精确性上优于RTBSS。在 RoboCup Soccer 中,采用基于领域知识的状态空间划分方法,成功的将 POMDP 模型应用于守门员决策,在守门员与前锋一对一的对抗实验中,基于POMDP的守门员比基于规则的守门员具有更好的防守能力。
最后对本文研究工作进行了总结,并对继续深入的可能进行了展望。希望能给进一步研究工作提供有用的参考。