基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法

来源 :电子与信息学报 | 被引量 : 6次 | 上传用户:pluto529
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭
其他文献
为促进应用型高校理工类专业教师课程意识能力的提升,推动桂林航天工业学院的教育教学方法改革,文章通过分析教师课程意识的重要性及本校的办学特色,寻找适合本校办学定位的
卫生部颁发的全国医院工作条例中明确规定“医院以医疗为中心,在提高医疗质量的基础上保证教学和科研任务的完成,同时做好扩大预防指导基层的技术工作”,因此,以医疗为中心扩
福延镇位于屏山县东部,于1992年由新庄乡和五峰乡合并而成,幅员面积57平方公里,19个村,106个组,总人口14300人,非农业人口900人,拥有耕地12164亩,其中田5060亩。全镇海拔在250~1080米之间。全镇建卡贫困户1054户,贫困人...
专利名称:气缸体,气缸盖和发动机主体摘要:本发明涉及气缸体,气缸盖和发动机主体。该气缸体是这样的,主体气缸体和外部气缸体分开模制。结果,不需要使得用于模制水套的模具部分较薄
月鳢是一种底栖性的肉食性鱼类,主要分布于我国南方各地,多生活于山地溪流或河沟,稻田等浅水水体。月鳢虽个体不大,但肉质细嫩,骨刺少,味道鲜美,加之有生肌补血,加速嫩肉生长,促进伤口
【摘 要】当前就业形势下,高职女大学生表现出依赖、自卑、焦虑、定势、攀比、矛盾、挫折、抑郁、嫉妒、不满等负面情绪体验,应采用自我暗示、自我松弛、自我宣泄法、角色互换法、自我激励法、自我安慰法、合理情绪疗法等心理调适的基本技术和方法,排除心理困扰,阳光而自信的走向工作岗位。  【关键词】高职女大学生 就业心理 调适策略  教育部数据显示:全国普通高校毕业生2011年为650万人,2012年为680万
【摘 要】本文深入地研究了社会主义核心价值观在高职体育教学中的渗透,分析了高职体育文化建设中的问题与缺陷,并根据实际问题提出了针对性的改进措施,希望本文的研究有利于我国高校体育文化教学的发展。  【关键词】社会主义核心价值观 高职体育教学 渗透 实现路径  为了适应社会发展的需求,教育部明确了思想政治、文化体育在高等教育中的作用,将智育、德育、美育、体育作为高等教育的四大支柱,我国高等教育的体育教
输液是由静脉滴注进入体内的大剂量注射液,是医院临床必备药品,因其直接将药物输入人体静脉血管,在具有药效迅速,作用可靠,适用于急救的同时,其质量好坏将直接影响患者康复和
本文提出了一种新的柴油机故障诊断方法,利用柴油机表面振动信号经过小波包提取特征参数,然后由BP神经网络进行故障诊断.实验研究和计算机模拟的结果表明,这一方法是可行和有
保证无线异构网络端到端QoS需求,同时兼容现有网络业务和未来需求,是下一代网络的一个研究热点。QoS映射是保证异构网络端到端QoS的有效方法。该文提出一种基于聚集流的QoS映射方法(QoS Mapping Technology based on Flow Aggregate,QMT-FA),该方法在现有物理网络上建立虚拟的流处理层,在流处理层,原网络中的QoS参数被映射执行器透明封装,映射执行器根