部分可观测马尔可夫决策过程的状态估计与策略学习

来源 :刘剑锋 | 被引量 : 0次 | 上传用户：lanyinghit

【摘要】

：

【作者】

：

刘剑锋

【机构】

：

河南科技大学

【出处】

：

刘剑锋

【发表日期】

：

2022年01期

【关键词】

：

部分可观测马尔可夫决策过程自适应卡尔曼滤波器多智能体协同定位信念表示学习深度强化学习

【基金项目】

：

国家自然科学基金项目（项目编号:61976243）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,动态、不确定环境下的序贯决策问题成为人工智能和控制等领域的研究热点。部分可观测马尔可夫决策过程（POMDP）为这类问题提供了一个统一的描述框架。由于POMDP模型考虑了状态不确定性对决策带来的影响,因此能够更加客观地描述真实世界,被广泛应用于科学、工业、商业、军事和社会等领域。然而,实际应用的POMDP模型具有较强的非线性和随机性,存在观测信息易受时变噪声和野值干扰、多智能体协同场景下计算复杂度高、系统的精确解析模型无法获取等问题,进而为POMDP的求解带来挑战。针对上述问题,本文以兼顾求解方法的性能和效率为目标,围绕基于模型的状态估计与无模型策略学习两部分内容展开研究,具体如下:（1）针对模型已知的连续状态空间POMDP中量测数据受到时变噪声和野值污染时导致状态估计精度低、收敛性差的问题,提出一种基于误差状态模糊自适应卡尔曼滤波器的鲁棒状态估计方法。动态不确定环境下,时变噪声的统计特性变化频率高、幅度大。所提出方法使用模糊推理系统对量测噪声协方差估计器中新息的贡献权值进行二次自适应估计,从而能够更快地捕获到动态变化的量测噪声特性;为削弱野值对滤波性能的影响,基于新息正交性理论对野值进行检测,并根据其偏离程度对量测予以修正。仿真与实物实验结果表明,所提出状态估计方法具有较强的鲁棒性和自适应能力,有效提高了量测中含有时变噪声和野值场景下的状态估计精度。（2）针对模型已知的连续状态空间分布式POMDP下多智能体位置估计精度与效率难以权衡的问题,提出两种基于任务先验的多智能体协同定位方法。以高效利用任务先验为核心思想,分别从建模优化和量测处理的角度展开研究:首先,将距离与方位的刚性约束条件引入建模过程中,提出基于刚性约束模型与求积分卡尔曼滤波器的双智能体协同定位方法,该方法利用智能体间耦合关系实现待估计状态的降维,在保证估计精度的同时有效降低了计算负担。然后,将环境中已知锚点信息作为先验,提出混合伪锚协同与非锚协同的节点可切换协同定位方法。引入临时伪锚点的概念,通过节点类型切换机制对异质协同量测进行集成,以实现量测信息的高效利用;将信息论作为指导依据设计临时伪锚点选择策略,进一步从冗余量测中筛选出有益信息。仿真结果表明,所提出方法能够在任务先验的辅助下实现协同定位精度与效率的权衡。（3）针对模型未知的高维观测空间POMDP中,因无法使用模型先验且观测信息不完整导致智能体难以对环境状态进行推断的问题,提出动作依赖的双向对比预测编码信念表示学习方法。良好的信念表示能够为决策提供合理的依据。所提出方法同时利用历史与未来的双向预测误差对观测编码器、信念转移和预测模型进行端到端训练,通过使用瓶颈信念状态约束预测误差上界来提高自监督信念表示的学习效率与准确性;为了稳定训练过程,以缩小前向与反向预测交集区间内的表示差异为指导思想,推导出双向预测匹配正则化项并将其作为优化目标之一。此外,采用梯度截断机制对所学习信念表示的可解释性进行了探索。仿真实验表明,利用所提出方法学习到的信念表示不仅具有较高状态跟踪精度,还能够对状态的不确定性进行刻画,为进一步求解POMDP最优策略提供了保障。（4）针对模型未知且具有高维观测空间POMDP的策略求解过程中,智能体因无法获取环境的完整状态导致策略学习性能低下的问题,提出一种基于对比预测编码表示的深度双Q网络强化学习算法。标准深度强化学习算法假设观测中包含用于决策的完整状态信息,然而该假设并不适用于POMDP。所提出算法通过显式地对信念状态建模以获取紧凑、高效的历史编码供策略优化使用;为改善数据利用效率,引入信念回放缓存池的概念,其直接存储信念转移对而非观测与动作序列以减少内存占用。此外,设计分段训练策略将表示学习与策略学习解耦来提高训练稳定性。仿真结果表明,所提出算法能够辅助智能体打破“感知混淆”困境,进而实现POMDP下稳定、高效的策略学习。综上,本文围绕复杂POMDP的状态估计与策略学习展开研究,提出兼顾性能与效率的新颖方法,对解决动态、不确定环境下的序贯决策问题具有重要的理论意义和实际应用价值。

其他文献

民事习惯的司法适用研究

《民法典》第10条只是抽象地规定了民事习惯作为法源的地位,但是对哪些民事习惯可以作为法源以及民事习惯如何适用并无规定,民事习惯的司法适用急需理论支撑。民事习惯的司法适用主要是在司法实践过程中,由法官发挥自由裁量权而进行的,导致民事习惯的适用存在诸多问题,民事习惯并未充分发挥其法源作用。民事习惯作为法源适用于司法实践更符合当事人的正义观念及期待利益,有利于实现法律调整社会生活的妥当性。本文旨在探讨《

学位

法源民事习惯司法适用正当性实现路径

频率选择表面切换屏与电磁散射特征的设计与仿真研究

为应对电磁散射特性不同的各类电磁对抗作战地表环境,研究目标散射特性的调控规律以及目标与地表环境在电磁成像模式下的融合隐身成为了重要的研究课题之一。根据频率选择表面切换屏结构可以对电磁波反射幅值灵活调控的特征,可改变目标的电磁散射特性。基于此,本研究拟开展对有源频率选择表面切换屏结构的设计与分析,重点研究目标散射特性的调控方式,掌握目标与地表环境的融合隐身成像特征来指导伪装隐身工程应用。其主要研究结

学位

频率选择表面电磁功能切换屏微波反射率雷达散射截面电磁散射特性成像模式模拟

构建基于“一带一路”沿线区域经济发展特色的虚拟仿真口译实训系统——以“渝新欧沿线区域国家商贸联络及会议口译虚拟仿真实验教学项目”为例

虚拟仿真口译实训系统融合口译学科特点和虚拟现实技术，创造仿真化口译实践情境。在遵循学科教学的普遍原则的基础上，系统构建也应符合区域经济发展特点及趋势，本文以四川外国语大学“渝新欧沿线区域国家商贸联络及会议口译虚拟仿真实验教学项目”为例，探讨基于“一带一路”沿线区域经济发展特色的虚拟仿真口译实训系统的构建，通过针对性的主题、定制化的难度及情景化的任务，加深学生对口译实践过程的体验，从而完成口译能力和

期刊

区域经济发展虚拟仿真口译实训系统仿真实验教学语言服务

《AI让人类更长寿》（第5章）英汉翻译报告

学位

盾构机主轴承滚道与内齿圈疲劳仿真试验研究

盾构机主轴承为大型掘进机关键零部件,一旦失效将导致掘进机长期停机甚至报废。因此,盾构机主轴承需满足复杂工况下的高可靠性,其服役工况复杂,在服役过程中需承受大倾覆力矩、大扭矩及冲击载荷作用,且其套圈直径大、壁厚薄、端面宽、结构刚性差,易发生大变形、振动异常以及过早疲劳失效等问题。基于此,为提高盾构机主轴承的可靠性,本文建立了盾构机主轴承失效故障树模型,同时对盾构机主轴承滚道和内齿圈疲劳进行了仿真实验

学位

盾构机主轴承故障树有限元仿真疲劳机理疲劳失效实验

共振稳定自由基的激光光谱研究

共振稳定自由基在燃烧化学、星际化学和大气化学领域具有重要作用。研究共振稳定自由基的高分辨光谱有助于理解其成键规律和电子能级信息,同时为天文观测和研究燃烧动力学机理等提供理论和实验支持。本论文利用激光诱导荧光技术和光腔衰荡光谱技术开展了1,4,6-庚三烯基（C7H9）、茚基（C9H7）、茚离子（C9H8+）和1-茚满基（C9H9）的高灵敏气相光谱研究,并搭建了一套射流搅拌反应器-光腔衰荡光谱实验装置

学位

共振稳定自由基光腔衰荡光谱激光诱导荧光高分辨激光光谱射流搅拌反应器

铜冶炼工艺技术升级改造工程前期土方施工工作进展顺利

报纸

技术升级改造铜冶炼土方施工建安公司工程前期冶炼工艺

多模态环境下英语专业学生口译自主学习能力培养探究

作为英语专业学生的必修课程，口译课一直备受关注，但口译课程至今还存在课时不足、教学资料陈旧、教学环境单一、评价方式落后的问题。将多模态环境引入口译教学，合理科学地利用多媒体网络资源辅助口译教学，培养学生课前、课中、课后的自主学习能力，形成多元评价理论体系有力地弥补了现有口译课程中存在的不足。

期刊

多模态环境口译教学自主学习

联合收割机工作部件装配质量振动检测关键技术研究

联合收割机是重要的农业机械产品,农业农村部在《“十四五”农业机械化面临的重大挑战与战略任务》和《农机装备发展行动方案（2016-2025）》中提出要加强农机装备质量可靠性建设,提高农业装备特别是收获机械的可靠性。研究联合收割机装配质量检测问题,分析联合收割机装配质量问题的检测方法,设计联合收割机装配质量检测系统,是实现联合收割机可靠性提升的重要组成,对于实现国家“十四五”产业布局规划中的农机可靠性

学位

故障诊断联合收割机信号降噪特征提取融合装配质量检测

二叠纪-三叠纪之交海洋碳、氮循环异常与化学条件变化

二叠纪-三叠纪之交发生了显生宙以来规模最大的生物灭绝事件,随后的早三叠世则经历了长达4-8百万年的生物迟缓复苏。海洋氧化还原条件的变化是导致生物灭绝以及生物迟缓复苏的重要驱动机制。碳和氮是生命体的重要组成元素,碳、氮同位素研究是反演古海洋环境变化的有效手段。为探究二叠纪-三叠纪之交海洋碳循环和氮循环的扰动机制、海洋氧化还原条件变化及其与生物灭绝之间的相互关系,本文对贵州边阳打讲剖面进行了高精度的无

学位

二叠纪-三叠纪之交早三叠世海洋氧化还原条件碳同位素氮同位素硫化海水上涌底层缺氧海水扩张

部分可观测马尔可夫决策过程的状态估计与策略学习

其他学术论文