动态不确定性环境下的实时规划系统研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:jsd84r
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种非常重要而且常见的智能行为和能力,规划(Planning)就成为人工智能研究的一个重要领域,很早就受到关注的主要问题之一。而在动态不确定性环境下的规划就因其更加贴近现实环境,具有更高的实用价值而成为目前规划问题研究的重点和热点。本文首先分析动态不确定性环境的主要特点,包括:■动态性:环境的状态无时无刻不在变化。它不仅仅受智能体自身的影响而变化,还受环境中其他智能体和其他因素的影响而变化。■智能体知识的局限性:一般来说,智能体不可能掌握环境中所有的知识,不可能了解可以引起环境变化的所有因素,不可能了解其他智能体的所有情况。智能体只可能部分的掌握这些知识,甚至对一些方面一无所知。■智能体行动的不确定性:智能体在环境中执行一定的行为,其结果是不确定的,事先无法对这个结果作准确的预测。■智能体观察的局部性:一般来说,智能体对环境的观察是不全面的。在同一时刻,智能体只能观察到环境中一部分的情况。■智能体观察的不确定性:智能体从环境中得到的观察一般来说是不准确的,有时甚至是错误的。然后,对现有的规划系统在适应上述动态不确定性环境的能力进行了概述。分析了这些系统在适应动态不确定性环境方面各自的优点和不足。本文的主要工作是基于以上的分析和认识,提出了基于PRS和决策论规划的面向动态不确定性环境的规划系统POMDPRS。并讨论了两种提高决策效率的改进方法。具体工作主要有:1)提出了面向动态不确定性环境的规划系统POMDPRS。描述了其基本模型,并给出了形式化描述。POMDPRS通过保持PRS系统的持续规划机制来适应环境的动态性,通过使用环境状态空间上的概率分布作为智能体的信念来适应环境的不确定性,从而兼顾了两个大方面的要求。2)阐述了状态因子化表示在POMDPRS中的应用,并给出了因子化的POMDPRS——FPOMDPRS的形式化描述。POMDPRS使用环境状态空间上的概率分布作为智能体的信念,并根据智能体输出的行为和接收到的观察来对其进行更新。但是在很多情况下,状态空间往往十分巨大,从而使得信念更新的时间消耗非常高,难以适应系统反应实时性的需要。因子化方法通过将状态表示中涉及到的环境属性根据其互相依赖关系来对它们进行划分。将一个状态表示为几个子状态的集合,从而将未因子化时的一个大状态空间变成几个较小的状态空间。从而信念也就变成几个子状态空间上的概率分布的集合。在信念更新的时候,对这几个子状态空间上的概率分布分别处理,从而达到削减信念分布时间消耗的作用。3)阐述了Monte Carlo滤波表示在POMDPRS中的应用,并给出了应用MonteCarlo滤波的POMDPRS——MCPOMDPRS的形式化描述。削减信念更新的时间消耗的另一个方法是Monte Carlo滤波。它通过使用概率分布上有限的一些具体数值(样本)来代表整个分布,并根据行动和观察,使用SIR方法来对这个样本集进行更新。这使得信念更新的时间消耗依赖于样本集的大小。从而可以通过控制样本集的大小来控制信念更新的时间消耗。因子化和Monte Carlo滤波可以在POMDPRS中结合起来使用。即先对状态进行因子化,然后再对一些仍然很大的子状态集使用Monte Carlo方法,从而达到进一步提高信念分布更新效率的目的。本文在最后具体描述了一个FPOMDPRS和MCPOMDPRS相结合的,在实体机器人上运行的机器人决策控制系统P-DOG并给出了实验结果,验证了POMDPRS及其变种的可行性。
其他文献
采用亲水剂喷淋-烘焙的方法和正交试验对聚丙烯纺黏-熔喷-纺黏(SMS)非织造脂肪纯化材料表面进行亲水整理,通过扫描电子显微镜、傅里叶变换红外光谱仪、接触角测量仪、倒置显
美国大学一直是全世界大学管理模式的典范,本文通过三个方面探究了美国大学的教学管理模式。首先,从管理上简述美国大学的管理机构:董事会、理事会和评议会;其次,从教学管理层
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
高校安全稳定工作事关社会维稳大局,辅导员是维护校园安全稳定的重要力量。本文通过调查海南医学院校园安全及辅导员维稳工作现状,分析存在的问题并提出进一步发挥辅导员在校园
应用于“μ介子离子化冷却实验装置(MICE)”的超导耦合磁体系统是MICE中的三大关键设备之一。耦合磁体线圈内径为1500mm,长度为285mm,厚度为110.4mm,采用方形截面1.65×1.00mm^2
一季度以来,大港油田采油三厂作业五区维修队结合岗位员工技能结构特点,在日常施工任务、施工人员分派上与培训计划和目标相结合,将个性培训、特色课堂搭建在施工现场,并由实
分析了环境对波纹管自调节式J—T制冷器维持流量的影响途径,并提出了三种优化途径,即通过优化波纹管有效面积与刚度比,或改变调节器工作点温度,或改变调节器充气种类来按需优化环
本文主要针对目前广泛使用的嵌入式系统具有实时性要求高、内存容量有限以及软硬件精简等特点,传统浮点数权值和连续激励函数的神经网络计算量及其所需存储空间较大,无法在精
本文对一道IMO的预选题进行了一些推广,得出了一些有用的结论.
国务委员、国务院国有企业改革领导小组副组长王勇对做好当前国有企业改革工作强调指出,企业提质增效关键在于加强领导、精心组织、真抓实干、狠抓落实.要进一步深化改革,转