连续时间MDPs增强学习方法及其在无人机控制中的应用

来源 :国防科学技术大学 | 被引量 : 1次 | 上传用户:greatspy_52
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无人机系统在恶劣气象条件和动态战场环境中的应用,给无人机控制技术带来不确定性、高度非线性、多输入多输出、输入通道耦合以及非结构化环境和动态环境等诸多挑战。论文以人工智能的视角,从连续时间Markov决策过程(Continuous-time Markov Decision Processes,CTMDPs)出发,发展了适用于CTMDPs增强学习的新理论方法,并应用到无人机自主控制当中。论文综合运用Markov决策过程(Markov Decision Processes,MDPs)、随机优化、增强学习等多种理论,重点对基于性能势的CTMDPs问题模型、策略迭代求解算法、增强学习方法以及其在无人机控制中的应用等方面进行了理论与应用研究。论文的主要研究成果如下:1、采取连续时间Markov决策过程对无人机系统控制问题中的不确定性进行建模,构建了基于性能势的CTMDPs模型。1)MDPs通过假设状态之间转移是概率的,为环境中不确定性建模提供了有效的概率化方法。针对非结构化环境和动态环境中,无人机系统参数和环境都是时变的特点,论文利用具有连续状态转移时间的CTMDPs模型替代具有固定转移时间的传统MDPs模型。通过动态性很强的“双车博弈”例子,验证了CTMDPs模型比MDPs模型具有更好的性能。2)要想求解CTMDPs模型,首先需要获得模型参数。然而,现有CTMDPs模型中参数具有时变形式,很难显式地给出其概率分布。另一方面,模型参数与样本路径之间没有明显的估计关系式,因此很难通过样本路径来估计模型参数。为此,借助于性能势对Markov随机过程的描述,论文构建了基于性能势的CTMDPs模型。2、首次提出了基于性能势的CTMDPs模型策略迭代求解算法。1)利用性能势理论推导出了长期平均收益意义下:策略基本引理、最优策略的充分必要性条件、以及具体的CTMDPs策略迭代算法。2)在理论上证明了所提出算法的收敛性以及算法解的最优性。3)在理论上分析了传统MDPs只是CTMDPs在单位转移速率矩阵Λ=I时的特例。4)通过一个具有强对抗性的动态博弈例子对所提出的CTMDPs策略迭代算法进行验证,并与传统MDPs方法进行比较。结果表明所提出的CTMDPs算法能够很好地接近问题的最优解析解,并对参数的变化具有较高的鲁棒性。与传统MDPs比较结果显示,无论是从解的质量还是算法的鲁棒性来看,CTMDPs策略迭代算法都具有明显优势。3、首次提出了基于性能势的CTMDPs模型增强学习方法。1)给出了CTMDPs中状态转移速率、嵌入链转移概率等参数的估计公式。对性能势估计,给出了适合离线估计的L步估计算法,以及适合于在线估计的时间差分算法,并从理论和仿真两个方面对估计公式收敛性进行了验证。2)推导出了增强学习的具体算法,并讨论了如何避免求解过程陷入局部极值点。3)以标准的增强学习验证问题(倒立摆)为例,对比了Q-learning、Actor-Critic、GENITOR、SANE等它经典学习方法以及传统MDPs模型学习方法,结果表明CTMDPs-RL方法求解速度比上述方法更快且陷入局部极值点的情况更少。4、应用基于连续时间Markov决策过程的增强学习方法求解了无人机控制问题。1)给出了无人机引导任务中具有积分型指标和终端型指标的两类控制问题在增强学习方法下的统一求解框架。2)分别利用CTMDPs-RL算法求解了爬升-下降”轨迹跟踪、“S型转弯”轨迹跟踪两个具有积分型指标的算例;以及定高飞行、定速飞行两个具有终端型指标的算例。通过对实验结果的性能与误差分析,表明CTMDPs-RL算法在无人机动力学模型未知前提下,通过不断学习,可以很快得到满足要求的控制策略。
其他文献
清末至今,我国出版了大量中学化学教科书,在这些教科书中,关于元素化合物知识的编排,在宏观结构上出现了类别式、插入式、互融式、独立—嵌入式等模式;在微观结构上出现了统
目的分析在抗结核治疗的同时保肝药对药物性肝损害的预防作用。方法选择初治肺结核230例分为2组,应用2HREZ(S)/4HR方案抗结核治疗。治疗组140例为全程加服复方甘草酸苷片;对照
本文综合运用实验研究、数值计算和理论分析,对吸气式连续旋转爆震的可行性进行了验证,从连续旋转爆震波的传播模态、爆震波与来流相互作用和爆震波传播过程稳定性三个方面系
目的探讨计算机网络在药剂科的应用情况.方法通过对我院计算机网络在药剂科的应用进行调查、分析.结果计算机网络对我院药剂科的工作发挥了重要作用.结论计算机网络在药剂科
成像制导飞行器在大气层内高速飞行时,光学头罩与来流之间相互作用形成复杂流场,造成成像系统接收的目标光线产生严重的偏移、抖动、模糊及强度衰减等气动光学效应,极大影响
大黄具有泄下、抗菌、抗肿瘤、抗高脂血症、降低血压等作用.近年来由于对其药理作用的深入研究,本文阅述大黄在临床上有许多新用途,供临床参考.
通过对葵花籽乳饮料的配方及稳定性研究,研制出一种新的植物蛋白饮料.
航空橡胶密封结构是大型飞机机舱密封及机构传递载荷的关键部件,其性能直接决定了高性能大型客机的安全性与可靠性。鉴于航空橡胶密封结构复杂的受力特点、苛刻的工作环境及