基于深度强化学习的多无人机对抗算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hmei_0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着空战环境日益复杂,单架无人机战斗能力有限,难以满足空战任务需求,将多架无人机应用于空战格斗是未来空战的发展方向。而在空战格斗中,无人机对抗算法是决定胜负的关键因素,各国竞相开展无人机对抗算法的研究。传统的对抗算法如微分对策和专家系统等常常由于决策缓慢而贻误战机,无人机的智能化、实时化决策方法成了新的研究热点。本文设计了一种基于深度强化学习的多无人机对抗算法,无人机可以根据战场环境自主做出智能化决策。无人机空战可以看作是强化学习中的离散动作空间马尔可夫决策过程,无人机每进行一次决策都会从环境中得到一个立即奖励,并根据该奖励逐渐学习到合适的策略。由于无人机空战问题涉及的状态和动作数目非常多,传统的强化学习算法需要用表格来记录和搜索每一个状态动作的价值,需要消耗大量内存资源。针对该问题,本文将强化学习和神经网络相结合,用神经网络直接计算状态动作的价值,降低了内存消耗,之后使用贪婪算法选择价值最高的动作作为无人机的机动策略。多无人机对战可以分解为多个单机作战,本文以单无人机对抗为基础,研究了三维空间中的无人机对抗,设计了无人机常见动作的编码方式,利用无人机的运动学方程描述无人机的状态转移过程,根据无人机的相对位置和姿态信息设计了奖励函数,用于对无人机策略的评估。由于多无人机空战中的目标分配过程十分复杂,本文设计了一种多无人机分组对抗方法,首先根据距离对无人机进行分组,之后定义了各个无人机小组的目标分配规则,将多无人机空战对抗转化为多个小组间作战。对于无人机小组作战,为小组内每架飞机建立一个神经网络,用于各自的决策。在空战仿真中,我们采用深度Q网络算法作为敌方的格斗策略,而我方在深度Q网络算法的基础上做出了改进,将动作选择和动作评估分开,把神经网络的输出Q值分解为状态值和动作优势两部分,可以更好地区分不同动作的价值。在经过多个训练回合后,本文设计的无人机对抗算法在单无人机和多机对抗中相对其他深度Q网络算法都能够做出更优的决策,获得更高的胜率。
其他文献
在无损检测中,光纤布拉格光栅超声传感器由于其自身优异的波分复用能力、抗电磁干扰能力以及能够嵌入结构体内部等特性而被广泛应用于飞行器、舰艇、大型建筑等结构体的健康检测中。为了对特定结构体实施全面、实时、有效的健康检测,对光纤光栅超声传感器的多点复用能力、高灵敏度、性能参数匹配等方面提出了严格的要求。光纤光栅内置基于移频反馈掺铒光纤激光器的超声传感器有望在多点复用、高灵敏超声探测方面取得突破,移频反馈
学位
随着第五代移动通信技术的发展,在未来的通信网络中,用于传感和监测的设备会越来越多,而及时的信息更新对于这些系统的正常运行至关重要。因此,信息年龄(Age of Information,Ao I)这一新指标被提出用来度量信息及时性。此外,非正交多址接入(Non-Orthogonal Multiple Access,NOMA)通过功率域的复用方式在特定无线资源上可以同时为多个用户服务,被认为是未来多址
学位
无人机集群系统由于其冗余性、同时执行不同任务的能力以及容错能力,越来越多地被用于实现动态和复杂的目标。然而,对于规模较大的无人机集群系统,无人机之间的协调问题变得非常复杂,在无人机集群的众多研究中,任务调度问题在近年来得到了广泛的关注。目前多无人机协同任务规划研究方向主要有自顶向下和自底向上,其中自顶向下的研究方向多从集中式的角度出发,较适合静态环境中的无人机集群。而当前解决多无人机任务规划的方法
学位
无人机因其所具有的快速机动能力以及制造部署成本低、高空通信覆盖范围广等特点,被大量应用于民事及军事领域中的不同场景,尤其是在未来无线网络的规划与建设中,无人机都被认为是一种很有开发价值的空中通信平台,也成为物联网的重要补充,如今无人机已经受到了广泛关注。一种典型的无人机通信平台应用是无人机中继网络,其可以在一定程度上有效缓解地面通信系统不完善的问题:如有些偏远地区地面网络还没有建设完全或是处于维护
学位
目的:探讨高脂血症性急性胰腺炎(Hyperlipidemic severe acute pancreatitis,HLAP)患者早期血清中脂多糖结合蛋白(Lipopolysaccharide-binding protein,LBP)、血清酶原颗粒的膜蛋白2(Glycoprotein 2,GP2)以及降钙素(Procalcitonin,PCT)水平对病情的早期评估价值。方法:回顾性收集2019年10
学位
目的急性胰腺炎(Acute pancreatitis,AP)是一种伴有胰脏腺泡细胞损伤凋亡、胰脏炎症及强烈的全身炎症反应的胃肠疾病。细胞凋亡的调节在整个生物体生长发育及疾病发展方面起着重要作用。mi R-15b-5p在多种疾病中有着调控细胞凋亡继而影响疾病发展的作用。而mi R-15b-5p在急性胰腺炎细胞凋亡中的作用尚未被研究,因此本文旨在探究mi R-15b-5p是否参与对急性胰腺炎细胞凋亡的
学位
背景随着人们生活水平的逐步提高,过量高脂高热量的饮食以及不良的生活习惯,造成了在中老年人群中胆石症的发病率逐年升高。胆总管结石是指在胆总管内存在的结石,并发症常见有胆源性的急性胰腺炎及急性胆管炎,大多为急性发作,病情十分危急,若未及时就诊治疗,疾病进展较快,因此对于此类患者我们需要尽早予以治疗,以避免严重后果的出现。长时间的胆汁淤滞可能会导致继发性胆汁性肝硬化、肝功能衰竭、胆管癌等疾病,对生命造成
学位
随着半导体行业的不断发展,电子产品已经广泛应用于人们的日常生活当中。这些电子产品是由印刷电路板(PCB)、集成电路(IC)和内存等组成,其中PCB是绝大多数电子产品的基础和核心组件。由于PCB形状、尺寸及材料的灵活性,使得PCB能够在各种场景中发挥作用,其使用几乎涵盖了每个行业。然而在全球化的趋势下,PCB与IC的设计、制造与测试相互分离,导致假冒电子产品越来越多,PCB的非法复制和过度生产等问题
学位
细胞是组成生物界中生物体的基本单位。在图像序列中对细胞进行跟踪,对于组织工程、药物发现、基因组学和蛋白质组学有着非常重要的价值。当前主流的细胞跟踪方法是采用基于检测的跟踪方法,该方法以良好的细胞检测为前提,在细胞密度较高的图像中,由于存在错检问题,跟踪过程又仅仅使用单一的表观特征进行跟踪,导致跟踪效果较差。而将单目标跟踪算法扩展为多目标跟踪算法,会出现跟踪时间长和目标被遮挡或者移出视野时跟踪器容易
学位
背景和目的:慢性失眠患者(CID)反刍思维增强会导致个体选择性的加强对睡眠相关威胁的注意。这可能会导致生理高觉醒,损害患者日间认知等功能。反刍思维作为最常见的认知情绪唤醒被认为与REMS有关。然而既往研究仅发现反刍思维与睡眠连续性指标相关。这一方面是因为过去的研究仅使用宏观的脑电数据,而未采用频谱分析等更细粒度的脑电研究方法;另一方面可能是对REMS异质性的忽视。尽管有初步研究表明REMS是可以分
学位