论文部分内容阅读
近年来,动态、不确定环境下的序贯决策问题成为人工智能和控制等领域的研究热点。部分可观测马尔可夫决策过程(POMDP)为这类问题提供了一个统一的描述框架。由于POMDP模型考虑了状态不确定性对决策带来的影响,因此能够更加客观地描述真实世界,被广泛应用于科学、工业、商业、军事和社会等领域。然而,实际应用的POMDP模型具有较强的非线性和随机性,存在观测信息易受时变噪声和野值干扰、多智能体协同场景下计算复杂度高、系统的精确解析模型无法获取等问题,进而为POMDP的求解带来挑战。针对上述问题,本文以兼顾求解方法的性能和效率为目标,围绕基于模型的状态估计与无模型策略学习两部分内容展开研究,具体如下:(1)针对模型已知的连续状态空间POMDP中量测数据受到时变噪声和野值污染时导致状态估计精度低、收敛性差的问题,提出一种基于误差状态模糊自适应卡尔曼滤波器的鲁棒状态估计方法。动态不确定环境下,时变噪声的统计特性变化频率高、幅度大。所提出方法使用模糊推理系统对量测噪声协方差估计器中新息的贡献权值进行二次自适应估计,从而能够更快地捕获到动态变化的量测噪声特性;为削弱野值对滤波性能的影响,基于新息正交性理论对野值进行检测,并根据其偏离程度对量测予以修正。仿真与实物实验结果表明,所提出状态估计方法具有较强的鲁棒性和自适应能力,有效提高了量测中含有时变噪声和野值场景下的状态估计精度。(2)针对模型已知的连续状态空间分布式POMDP下多智能体位置估计精度与效率难以权衡的问题,提出两种基于任务先验的多智能体协同定位方法。以高效利用任务先验为核心思想,分别从建模优化和量测处理的角度展开研究:首先,将距离与方位的刚性约束条件引入建模过程中,提出基于刚性约束模型与求积分卡尔曼滤波器的双智能体协同定位方法,该方法利用智能体间耦合关系实现待估计状态的降维,在保证估计精度的同时有效降低了计算负担。然后,将环境中已知锚点信息作为先验,提出混合伪锚协同与非锚协同的节点可切换协同定位方法。引入临时伪锚点的概念,通过节点类型切换机制对异质协同量测进行集成,以实现量测信息的高效利用;将信息论作为指导依据设计临时伪锚点选择策略,进一步从冗余量测中筛选出有益信息。仿真结果表明,所提出方法能够在任务先验的辅助下实现协同定位精度与效率的权衡。(3)针对模型未知的高维观测空间POMDP中,因无法使用模型先验且观测信息不完整导致智能体难以对环境状态进行推断的问题,提出动作依赖的双向对比预测编码信念表示学习方法。良好的信念表示能够为决策提供合理的依据。所提出方法同时利用历史与未来的双向预测误差对观测编码器、信念转移和预测模型进行端到端训练,通过使用瓶颈信念状态约束预测误差上界来提高自监督信念表示的学习效率与准确性;为了稳定训练过程,以缩小前向与反向预测交集区间内的表示差异为指导思想,推导出双向预测匹配正则化项并将其作为优化目标之一。此外,采用梯度截断机制对所学习信念表示的可解释性进行了探索。仿真实验表明,利用所提出方法学习到的信念表示不仅具有较高状态跟踪精度,还能够对状态的不确定性进行刻画,为进一步求解POMDP最优策略提供了保障。(4)针对模型未知且具有高维观测空间POMDP的策略求解过程中,智能体因无法获取环境的完整状态导致策略学习性能低下的问题,提出一种基于对比预测编码表示的深度双Q网络强化学习算法。标准深度强化学习算法假设观测中包含用于决策的完整状态信息,然而该假设并不适用于POMDP。所提出算法通过显式地对信念状态建模以获取紧凑、高效的历史编码供策略优化使用;为改善数据利用效率,引入信念回放缓存池的概念,其直接存储信念转移对而非观测与动作序列以减少内存占用。此外,设计分段训练策略将表示学习与策略学习解耦来提高训练稳定性。仿真结果表明,所提出算法能够辅助智能体打破“感知混淆”困境,进而实现POMDP下稳定、高效的策略学习。综上,本文围绕复杂POMDP的状态估计与策略学习展开研究,提出兼顾性能与效率的新颖方法,对解决动态、不确定环境下的序贯决策问题具有重要的理论意义和实际应用价值。