论文部分内容阅读
无人机如何在不确定条件下完成复杂任务决策,是提高无人机自主控制能力和适应复杂作战任务的关键技术之一。一方面,传统基于导航点的指控方式已无法满足复杂任务和低人机比条件下的无人机(群)指控要求,需要研究更贴近于人类自然语言的语义层任务描述方法;另一方面,模型不精确、环境扰动、执行器偏差等带来不确定性,传统确定性决策方法面临失效,需要研究不确定条件下的无人机任务决策方法。论文以概率模型检验方法(Probabilistic Model Checking)为框架,以线性时序逻辑(Linear Temporal Logic,LTL)描述顶层任务,以马尔科夫决策过程(Markov Decision Processes,MDPs)建模无人机系统行为,研究了参数不确定条件下无人机复杂任务自主决策问题。论文主要研究成果如下:1、针对MDP参数无法概率表征的无人机不确定复杂任务决策问题(即严重不确定性),首次提出了基于信息差决策理论(Info-gap Decision Theory)的鲁棒满意决策方法,最大化鲁棒性的同时确保满足期望的任务性能要求,并显式地给出了策略失效的不确定性边界。首先,引入信息差决策理论描述无人机系统模型参数的严重不确定性,构建了基于信息差的MDP(IMDP),将LTL任务描述转化为确定性Rabin自动机(Deterministic Rabin Automaton,DRA),利用概率模型检验方法合成了乘积IMDP;其次,证明了不确定等级和值函数之间的局部和全局单调性关系,给出了鲁棒最优性定理和鲁棒满意最优性定理,为改善策略的鲁棒性提供了理论依据;最后,提出了鲁棒满意决策算法,生成鲁棒满意控制策略,给出了算法的收敛性证明,界定策略的失效边界和不确定容忍度。该方法支持严重不确定条件下无人机复杂任务决策,降低其决策风险,提高决策的鲁棒满意程度。2、针对无MDP先验转移概率的无人机不确定复杂任务决策问题(即无先验参数信息),在概率模型检验框架下,提出了一种模型无关的概率近似正确(Probably Approximately Correct,PAC)的增强学习方法,即改进的延迟Q学习方法,能够在多项式时间和采样复杂度内生成满足LTL任务要求的ε-近似最优策略。首先,利用DRA的可接受条件,为Rabin条件中无限次访问状态和有限次访问状态分别赋予不同权值,构建了Rabin加权乘积MDP;其次,将改进的延迟Q学习算法引入到加权乘积MDP的策略生成问题中,设计了安全探索机制,避免不安全的探索行为,平衡探索(改善模型的知识)和利用(最大化LTL的满足概率);最后,通过最大化期望累积权值学习得到近似最优策略,证明了算法的PAC性质和收敛性,并通过仿真实验验证了算法的有效性以及不同参数对算法收敛性的影响。3、针对无MDP先验转移概率的无人机多目标任务决策问题(即无先验参数信息),提出了基于增强学习的分阶段决策方法,既能最大化LTL满足概率,又能最小化期望累积代价。首先,面向分阶段多目标优化问题,针对不同目标分别设计了相应的行动值函数;其次,考虑多目标之间相互影响的耦合关系,建立值函数之间的关联关系模型;最后,提出了基于Q学习算法的分阶段决策方法,阶段一决策生成满足LTL任务要求的最大约束行动集合,阶段二在最大约束行动集合中学习得到具有最小控制代价的行动,从而生成多目标合成控制问题的最优策略,该方法具有多目标可扩展性。4、针对概率不确定条件下多无人机协同任务决策问题,提出了一种基于相关任务集合划分和双有限滚动时间窗的协同行为决策方法。首先,通过时域h内无人机局部任务描述与无人机能力原子命题集合描述之间的包含关系,划分相关任务集合;其次,分别在不同的时域内建模有限时域h相交自动机和有限时域H乘积系统;第三,由于满足乘积MDP可接受最大终端成分的优化方法是针对整个LTL任务描述来而言的,其与满足有限时域h内阶段性任务目标相违背,通过引入任务进程测度来定义渐进函数,在有限时域H内逐个引导智能体趋向于满足其自身阶段性任务目标;最后,构造等价期望累积回报问题,并通过值迭代方法来合成局部行为协同策略。该方法凭借相关任务划分和双有限滚动时间窗来显著降低决策模型状态规模,提高了任务决策时间性能,为多无人机在线协同任务决策提供了一种新的有效方法。