论文部分内容阅读
随着空空导弹的不断发展,现代空战已经进入超视距空战时代。具备武器装备性能优势的一方,在接敌过程中大部分都倾向于避免“近身肉搏”,取而代之的是寻求超视距作战优势。由于空战环境具有高度复杂、动态和不确定等特点,空战攻防对抗异常激烈,战场态势瞬息万变。对于超视距编队协同空战,快速有效的空战决策方法尤为重要。本文将超视距空战决策过程建模成部分可观马尔科夫决策问题,并基于超视距空战态势评估中的非参量法设计回报模型。分析典型超视距空战过程和要素,结合多智能体强化学习算法,提出了面向超视距多机空战的决策方法。本文主要的研究工作包括:(1)建立超视距多机空战决策问题的模型。结合超视距空战要素和典型空战过程,在对雷达工作状态和导弹攻击区特点分析的基础上,对机载雷达探测区和导弹攻击区两类主要空间威胁进行建模。考虑到多机空战的复杂性和动态性,将超视距空战决策问题抽象成不完全合作问题,用部分马尔科夫决策过程(Partially Observation Markov Decision Process,POMDP)形式化表示。针对POMDP建模过程中的传统回报模型进行分析,结合超视距空战态势评估方法,基于非参量法设计新的回报模型。本文所设计模型具有连续、加快学习收敛等特性。(2)设计面向超视距多机空战的决策方法。深入分析了多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)的原理和特点,将MADDPG应用到复杂的、具有连续动作状态空间的多机空战对抗场景中。针对超视距空战任务的特点,改进了学习探索策略,将模拟退火思想与奥恩斯坦—乌伦贝克随机过程结合,减小了一些无用且低效的探索,有利于平衡强化学习系统在学习过程中的探索与利用的关系。针对具体的超视距空战应用场景,基于所建立的POMDP模型,对策略网络和价值评估网络的结构进行设计。最后提出了面向超视距多机空战的决策算法。(3)设计并实现改进回报模型验证实验和超视距多机空战决策问题的仿真实验。首先,在Ubuntu下搭建仿真环境,通过ROS消息传递机制实现智能体决策程序与Gazebo仿真环境的通信。然后,结合对回报模型的分析,开展了单机对抗场景下的验证实验。验证了基于本文所建立的回报函数的学习模型较基于传统回报函数的学习模型收敛更快、性能更优。最后,在Gazebo仿真环境中进行了超视距多机空战仿真实验,将改进的基于非参量法的回报模型和本文所提出的面向超视距多机空战的决策算法用于超视距多机空战决策问题,并与采用DDPG算法训练的强化学习模型对比。结果表明,本文提出的方法能有效地解决超视距空战决策问题,网络收敛速度更快,获得的平均回报更高,说明本文所提出的算法有较大程度的提升。