基于多智能体强化学习的超视距空战决策方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:waterkkk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着空空导弹的不断发展,现代空战已经进入超视距空战时代。具备武器装备性能优势的一方,在接敌过程中大部分都倾向于避免“近身肉搏”,取而代之的是寻求超视距作战优势。由于空战环境具有高度复杂、动态和不确定等特点,空战攻防对抗异常激烈,战场态势瞬息万变。对于超视距编队协同空战,快速有效的空战决策方法尤为重要。本文将超视距空战决策过程建模成部分可观马尔科夫决策问题,并基于超视距空战态势评估中的非参量法设计回报模型。分析典型超视距空战过程和要素,结合多智能体强化学习算法,提出了面向超视距多机空战的决策方法。本文主要的研究工作包括:(1)建立超视距多机空战决策问题的模型。结合超视距空战要素和典型空战过程,在对雷达工作状态和导弹攻击区特点分析的基础上,对机载雷达探测区和导弹攻击区两类主要空间威胁进行建模。考虑到多机空战的复杂性和动态性,将超视距空战决策问题抽象成不完全合作问题,用部分马尔科夫决策过程(Partially Observation Markov Decision Process,POMDP)形式化表示。针对POMDP建模过程中的传统回报模型进行分析,结合超视距空战态势评估方法,基于非参量法设计新的回报模型。本文所设计模型具有连续、加快学习收敛等特性。(2)设计面向超视距多机空战的决策方法。深入分析了多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)的原理和特点,将MADDPG应用到复杂的、具有连续动作状态空间的多机空战对抗场景中。针对超视距空战任务的特点,改进了学习探索策略,将模拟退火思想与奥恩斯坦—乌伦贝克随机过程结合,减小了一些无用且低效的探索,有利于平衡强化学习系统在学习过程中的探索与利用的关系。针对具体的超视距空战应用场景,基于所建立的POMDP模型,对策略网络和价值评估网络的结构进行设计。最后提出了面向超视距多机空战的决策算法。(3)设计并实现改进回报模型验证实验和超视距多机空战决策问题的仿真实验。首先,在Ubuntu下搭建仿真环境,通过ROS消息传递机制实现智能体决策程序与Gazebo仿真环境的通信。然后,结合对回报模型的分析,开展了单机对抗场景下的验证实验。验证了基于本文所建立的回报函数的学习模型较基于传统回报函数的学习模型收敛更快、性能更优。最后,在Gazebo仿真环境中进行了超视距多机空战仿真实验,将改进的基于非参量法的回报模型和本文所提出的面向超视距多机空战的决策算法用于超视距多机空战决策问题,并与采用DDPG算法训练的强化学习模型对比。结果表明,本文提出的方法能有效地解决超视距空战决策问题,网络收敛速度更快,获得的平均回报更高,说明本文所提出的算法有较大程度的提升。
其他文献
成书于唐宋之际的《复性书》在《中庸》诠释史上具有举足轻重的地位,北宋欧阳修、南宋叶梦得、清代全祖望等都对李翱推《中庸》之旨给予高度评价。本文力图揭示《复性书》对
由蒙古族歌手腾格尔作词作曲并演唱的《天堂》自1997年一经推出便迅速的传播开来,成为了一首脍炙人口的经典民族歌曲。歌曲发行至今被不同时期的不同歌者重新演绎以及改编,在音乐形式多元化发展的今天依然经久不衰。本文将以原唱腾格尔在《歌手》~((1))中的Live版本与华晨宇在《天籁之战》~((2))中改编的Live版本作为比较分析的对象,并从唱法与配器的不同角度作为主要切入点,通过影视资料中两者所演绎的
未来怎么来?——从后天来!人类要构建从今天到达明天很难,逻辑上是容易的,资本都是体制上的事情,体制会变。像美国那样一个强的资本主义逻辑、全球化逻辑、虚拟经济逻辑的国家,但
少年儿童时期,是学生在生长阶段发育最为旺盛的时期,处在这一时期的学生们其身体状况对于他们的成长起着至关重要的作用。在学生接受的各科教育当中,体育科目的学习对于学生的身
老年人作为社会中的弱势群体,他们的权益理应得到区别于一般群体的特殊保护,这种保护来自于家庭、社会、政府等方方面面,在保护老年人赡养权益的过程中,不同的主体扮演者不同
一、行进间运球互动观察练习1.练习方法让学生分别站在内外圆的弧线上,外圆的学生沿弧线逆时针方向做行进间运球,内圆的学生沿弧线顺时针方向做行进间运球。教师站在圆心位置