基于概率模型检验的无人机不确定决策理论与方法研究

来源 :国防科学技术大学 | 被引量 : 3次 | 上传用户：jinlu2010

【摘要】

：

无人机如何在不确定条件下完成复杂任务决策,是提高无人机自主控制能力和适应复杂作战任务的关键技术之一。一方面,传统基于导航点的指控方式已无法满足复杂任务和低人机比条

【作者】

：

纪晓婷

【出处】

：

国防科学技术大学

【发表日期】

：

2016年01期

【关键词】

：

马尔科夫决策过程线性时序逻辑概率模型检验信息差决策理论延迟Q学习多目标决策滚动时域

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

无人机如何在不确定条件下完成复杂任务决策,是提高无人机自主控制能力和适应复杂作战任务的关键技术之一。一方面,传统基于导航点的指控方式已无法满足复杂任务和低人机比条件下的无人机(群)指控要求,需要研究更贴近于人类自然语言的语义层任务描述方法;另一方面,模型不精确、环境扰动、执行器偏差等带来不确定性,传统确定性决策方法面临失效,需要研究不确定条件下的无人机任务决策方法。论文以概率模型检验方法(Probabilistic Model Checking)为框架,以线性时序逻辑(Linear Temporal Logic,LTL)描述顶层任务,以马尔科夫决策过程(Markov Decision Processes,MDPs)建模无人机系统行为,研究了参数不确定条件下无人机复杂任务自主决策问题。论文主要研究成果如下:1、针对MDP参数无法概率表征的无人机不确定复杂任务决策问题(即严重不确定性),首次提出了基于信息差决策理论(Info-gap Decision Theory)的鲁棒满意决策方法,最大化鲁棒性的同时确保满足期望的任务性能要求,并显式地给出了策略失效的不确定性边界。首先,引入信息差决策理论描述无人机系统模型参数的严重不确定性,构建了基于信息差的MDP(IMDP),将LTL任务描述转化为确定性Rabin自动机(Deterministic Rabin Automaton,DRA),利用概率模型检验方法合成了乘积IMDP;其次,证明了不确定等级和值函数之间的局部和全局单调性关系,给出了鲁棒最优性定理和鲁棒满意最优性定理,为改善策略的鲁棒性提供了理论依据;最后,提出了鲁棒满意决策算法,生成鲁棒满意控制策略,给出了算法的收敛性证明,界定策略的失效边界和不确定容忍度。该方法支持严重不确定条件下无人机复杂任务决策,降低其决策风险,提高决策的鲁棒满意程度。2、针对无MDP先验转移概率的无人机不确定复杂任务决策问题(即无先验参数信息),在概率模型检验框架下,提出了一种模型无关的概率近似正确(Probably Approximately Correct,PAC)的增强学习方法,即改进的延迟Q学习方法,能够在多项式时间和采样复杂度内生成满足LTL任务要求的ε-近似最优策略。首先,利用DRA的可接受条件,为Rabin条件中无限次访问状态和有限次访问状态分别赋予不同权值,构建了Rabin加权乘积MDP;其次,将改进的延迟Q学习算法引入到加权乘积MDP的策略生成问题中,设计了安全探索机制,避免不安全的探索行为,平衡探索(改善模型的知识)和利用(最大化LTL的满足概率);最后,通过最大化期望累积权值学习得到近似最优策略,证明了算法的PAC性质和收敛性,并通过仿真实验验证了算法的有效性以及不同参数对算法收敛性的影响。3、针对无MDP先验转移概率的无人机多目标任务决策问题(即无先验参数信息),提出了基于增强学习的分阶段决策方法,既能最大化LTL满足概率,又能最小化期望累积代价。首先,面向分阶段多目标优化问题,针对不同目标分别设计了相应的行动值函数;其次,考虑多目标之间相互影响的耦合关系,建立值函数之间的关联关系模型;最后,提出了基于Q学习算法的分阶段决策方法,阶段一决策生成满足LTL任务要求的最大约束行动集合,阶段二在最大约束行动集合中学习得到具有最小控制代价的行动,从而生成多目标合成控制问题的最优策略,该方法具有多目标可扩展性。4、针对概率不确定条件下多无人机协同任务决策问题,提出了一种基于相关任务集合划分和双有限滚动时间窗的协同行为决策方法。首先,通过时域h内无人机局部任务描述与无人机能力原子命题集合描述之间的包含关系,划分相关任务集合;其次,分别在不同的时域内建模有限时域h相交自动机和有限时域H乘积系统;第三,由于满足乘积MDP可接受最大终端成分的优化方法是针对整个LTL任务描述来而言的,其与满足有限时域h内阶段性任务目标相违背,通过引入任务进程测度来定义渐进函数,在有限时域H内逐个引导智能体趋向于满足其自身阶段性任务目标;最后,构造等价期望累积回报问题,并通过值迭代方法来合成局部行为协同策略。该方法凭借相关任务划分和双有限滚动时间窗来显著降低决策模型状态规模,提高了任务决策时间性能,为多无人机在线协同任务决策提供了一种新的有效方法。

其他文献

新生儿重症监护病房医院感染流行病学研究

目的调查新生儿重症监护病房(NICU)医院感染的特点,为预防和控制NICU医院感染提供科学依据。方法监测2013年1月—2017年12月某院NICU入住时间>48 h的住院新生儿的医院感染发

期刊

医院感染新生儿重症监护病房流行病学监测

氟苯尼考-β-环糊精包合物的研制

选择饱和水溶液法制备氟苯尼考-β-环糊精包合物;通过高效液相色谱法(HPLC)测定氟苯尼考-β-环糊精包合物的溶解度和溶出度;采用差热分析法对氟苯尼考-β-环糊精包合物进行物

期刊

氟苯尼考β-环糊精包合物溶解度溶出度

儿童预防接种的不良反应发生原因及护理干预的预防作用分析

目的探讨儿童预防接种不良反应发生的原因,分析护理干预对不良反应的预防作用。方法回顾分析2010年4月-2012年4月邯钢职工医院接种室进行预防接种发生不良反应的33例儿童临床

期刊

儿童预防接种护理干预不良反应预防作用

城口县旅游扶贫存在的问题和对策分析

城口县是国家级贫困县。近几年城口县旅游扶贫工作确定了初步成效。但是取得成绩的同时,也暴露出不少工作中存在的问题。这些问题的存在影响了城口县旅游扶贫取得更大的胜利

期刊

城口县旅游扶贫问题对策

呋喃它酮代谢物人工抗原的合成及抗体的制备

【目的】建立高灵敏度的呋喃它酮酶联免疫检测方法.【方法】以戊二醛法将呋喃它酮代谢物5-甲基吗啉-3-氨基-2-唑烷基酮(AMOZ)与牛血清白蛋白(BSA)和卵清白蛋白(OVA)偶联,再由

期刊

呋喃它酮代谢物半抗原多克隆抗体酶联免疫测定法

小鼠四倍体半克隆胚胎发育研究

半克隆(Semi-Cloned)胚胎是通过注射体细胞核到未去核的卵母细胞中产生的。在半克隆胚胎中,体细胞被用来作为精子的替代物。然而,由于异常的染色体分离,构建的半克隆胚胎在激

期刊

四倍体半克隆胚胎发育非整倍体

基因扩增检测四种感染人的疟原虫种类、数量的方法

目的建立对四种感染人的疟原虫种类、数量进行基因检测的方法。方法根据恶性疟、三日疟、卵形疟、间日疟的18SrRNA基因序列,设计属、种特异性引物和TaqMan探针,用荧光定量扩

期刊

聚合酶链反应定性定量疟原虫18S rRNA基因

中国科技体制改革面临六大突出问题

<正>理顺科技管理体系,优化科技资源配置,深化科技体制改革,发挥科技的支撑引领作用,须全面分析科技体制改革中的突出问题并提出相应对策。

期刊

科技体制改革突出问题

谈多媒体组合教学在初中物理学科中的应用

在初中物理教学中,传统的讲授式教学模式使学生在学习过程中兴趣低下,没有积极的学习态度,严重束缚了学生能力的形成和发展。为了改变这一现状,恰当地应用多媒体技术进行辅助

期刊

多媒体初中物理

基于可配置模板的产品快速配置设计方法的研究

为了实现产品的快速设计和设计知识的重用,提出了基于可配置模板的方法。该方法的设计思想是从产品结构设计、零部件装配、安全校验到绘制出图的全流程都利用可配置模板实现

期刊

可配置模板产品配置结构设计装配

基于概率模型检验的无人机不确定决策理论与方法研究

其他学术论文