Policy Iteration for Bounded-Parameter POMDPs

来源 :第六届中国智能计算大会 | 被引量 : 0次 | 上传用户:luxiliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  POMDP is considered as a basic model for decision making under uncertainty.As a generalization of the exact POMDP model,the boundedparameter POMDP (BPOMDP) provides only upper and lower bounds on the state-transition probabilities,observation probabilities and rewards,which is particularly suitable for characterizing the situations where the underlying model is imprecisely given or time-varying.This paper presents the optimistic criterion for optimality for solving BPOMDPs,under which the optimistically optimal value function is defined.By representing a policy explicitly as a finite-state controller,we propose a policy iteration approach that is shown to converge to an e-optimal policy under the optimistic optimality criterion.
其他文献
本文结合电气防火检测工作实际情况,对红外测温技术的基本原理和对火灾隐患进行检查时应注意的事项进行了阐述,同时,结合实际工作,介绍了电气设备红外测温的基本方法、检测结
由美国陶瓷学会(ACerS)、德国耐火材料协会(GRA)、拉丁美洲耐火材料协会(ALAFAR)和日本耐火材料技术协会(TARJ)联合发起的每两年一度的第12届耐火材料联合国际学术会议(LTNIT
累托石由于其特殊的晶体结构,具有很好的造浆性能和抗高温性能.实验评价了有机累托土的白油(柴油)悬浮体及白油油包水体系的流变性、滤失性和电稳定性.实验结果表明有机累托
在低压储层中采用欠平衡钻井,需使用抗高温的超低密度钻井液.室内试验研究与现场应用表明:仿油基钻井液通过试验及配方优选,能够把现场钻井液应用密度控制在1.03~1.04g/cm3范
延长气田钻进石千峰组与石盒子组过程中常发生井塌,此两地层俗称为"双石层".本文通过研究石千峰组与石盒子组岩性、地层矿物组分、理化性能、岩石强度、地应力、坍塌压力等地
国内水电站水工建筑物的内部观测大量采用差动电阻式仪器监测其内部性态。本文介绍了《差动电阻式监测仪器鉴定技术规程》的编制背景,说明了已埋差动电阻式监测仪器鉴定的方
漫湾水电站大坝为混凝土重力坝,为监测大坝水平位移,漫湾电站在大坝内布设了五条正垂线、九条倒垂线,其中1号正垂线布设在12号坝段,线体由坝顶悬挂至880高程基础廊道,线长122
随着科学技术的发展,卫星通信和全球卫星定位系统GPS(Global Positioning System)已广泛应用于社会的各个行业,并逐步应用到水电工程中.糯扎渡水电站近坝库岸滑坡体变形监测
本文对人工比测的基本概念及目的进行了概述,强调了人工比测成果分析方法选择的重要性.人工比测是目前自动化系统安装调试期间与试运行期间,衡量自动化系统测值准确性和系统可
  In this paper,we study two types of risk aversion two-stage fuzzy optimization problems.The first type is called two-stage fuzzy minimum risk problem (FMRP)