基于深度强化学习的有人/无人机编队协调控制方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:qweasd21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有人/无人机混合编队协同作战将是未来重要的作战样式之一。由于运动学的复杂性和环境的动态性,控制一组固定翼无人机自主跟随有人机遂行任务仍然面临巨大挑战。本文以固定翼无人机为研究对象,考虑复杂动态环境的随机性和不确定性,基于无模型深度强化学习方法解决了有人机-固定翼无人机混合编队协调控制问题,为混合编队的实际运用奠定了技术基础。主要工作及贡献如下:1)设计了基于深度强化学习的混合编队端到端协调控制框架。考虑无人机的非线性动力学,最小/最大空速、最大角速度等非线性约束,传感器误差、环境扰动等不确定因素,基于深度强化学习算法设计了端到端的有人机-固定翼无人机混合编队协调控制框架。该框架不依赖飞机和环境模型,能够直接输出无人机的控制指令,确保无人机能够自主跟随有人机组成编队协同飞行。2)针对离散动作空间中的有人/无人机编队协调控制问题,提出了基于D3QN算法(Dueling Double Deep Q-Network)的混合编队协调控制方法D3QN-imitation。在算法中设计了ε-imitation动作选择策略,提高了D3QN算法的学习效率。仿真结果表明:在ε-imitation动作选择策略的引导下,D3QN算法能够更快更有效地学习最佳策略,ε-imitation动作选择策略与D3QN算法相结合具有一定的优势。3)针对连续动作空间中的有人/无人机编队协调控制问题,提出了一种基于AC框架(Actor-Critic)的混合编队协调控制方法CACER。在算法中设计了双重优先经验回放机制,有效地提高了CACER算法的性能和训练效率。仿真结果表明:与随机经验回放机制和优先经验回放机制相比,基于双重优先经验回放机制的CACER算法在学习效率上具有明显优势。4)构建高保真半实物仿真系统验证了算法的有效性和可迁移性。硬件在环飞行仿真实验显示,数值仿真环境下训练得到的控制策略无需任何调整即可直接迁移到半实物仿真系统中。这一结果表明,本文提出的CACER协调控制算法具有较强的适应性及良好的实用性。
其他文献
2001年发生在美国的9·11恐怖袭击,其影响之大、之广、之深远远超出我们的想象。对全世界而言,它是一个改变了世界格局的历史事件;对于美国而言,它是一次改变了国家政治形态的恐怖袭击;对于美国内民众而言,它是一场摧毁对未来期许的灾难。时隔多年,当时深受9·11之害的个人和家庭,今之何如?亚当·谢夫特的最新小说《那个未曾谋面的人》给了我们答案。本篇翻译实践报告的原文节选自《那个未曾谋面的人》一书。小说
现代战争对雷达目标识别提出了更高的要求,由于现役雷达大部分是低分辨雷达,对其开展目标识别技术的研究具有重要军事意义。在小样本、样本不均衡等复杂电磁环境条件下,传统低分辨雷达目标识别方法存在泛化性较差、识别率较低等问题。本文围绕深度学习方法对低分辨雷达目标识别技术开展研究,主要研究内容如下:传统低分辨雷达目标识别技术采用先提取信号特征,再基于特征进行识别的两步识别方法。论文首先研究了基于深度学习的低
"穿透式"行政检察监督打破行政诉讼固有"遮蔽",弥补行政检察监督缺位,是参与社会治理多元主体中不可替代的重要力量。"穿透式"行政检察监督多层穿透,具备坚实的理论基础。不仅如此,其通过发挥"一手托两家"的监督作用,在司法实践中具有监督行政诉讼活动、促进依法行政、实质性化解行政争议、提升社会治理能力的制度优势。实现"穿透式"行政检察监督之功效,应遵循精准监督、双重监督、实质监督、类案监督的监督理念,同
图像语义分割技术是目前计算机视觉技术领域中的热门研究方向,其研究具有重要的军事及民用价值。随着军事智能化要求的提高,语义信息发挥越来越重要的作用,这更加促进了语义分割技术研究的发展。本文以公开大规模数据集中的场景和物体作为研究对象,对图像语义分割算法展开了研究。研究重点内容包括以下三个部分:(1)介绍了语义分割技术的发展现状,对目前国际上主流的语义分割算法进行了归纳总结。在对目前国际上使用最广泛的
随着毫米波近场成像系统在安检等领域发挥作用,针对三维雷达图像的目标分类与检测方法具有了重要的理论研究和应用价值。三维雷达图像包含丰富的三维空间信息与雷达成像特征,本文尝试通过深度学习的方法,充分分析利用三维雷达图像具有的特点,深入研究针对三维雷达图像的目标分类方法。第一章论述了该课题的研究背景和意义,分三个小节详细总结了三维雷达图像目标分类的深度学习方法相关领域的发展现状,在此基础上归纳了本课题需
目标检测任务作为在图像处理和计算机视觉领域中的基础课题之一,在图像检索、视频监控、人脸检测、人机交互等方面上有着广泛的应用。传统的目标检测方法首先是对给定图片进行特征提取然后再进行分类抉择,因此特征提取的好坏对目标检测的性能起着关键的作用。相对于传统的目标检测方法,基于深度学习的目标检测方法通过大量数据训练能够自适应的学习到较好的特征提取方法,可以更好的在复杂场景下进行检测。目前比较流行的基于深度
雷达传感器具有全天时全天候工作、非接触式等优点,可用于人体非侵入式的侦察监视,正逐渐成为城市反恐、远程健康监测等领域的重要感知手段。其中低频雷达可以实现穿透墙壁探测人体信息,但其微多普勒时频信息模糊,区分难度高。而深度学习的兴起使低频雷达具有区分那些在视觉上无法分辨的微多普勒时频特征的潜能。本文以低频段多发多收(Multiple-Input Multiple-Output,MIMO)超宽带(Wav
颜色在许多计算机视觉的问题中都起到了关键性的作用,相比于灰色图像,彩色图像的使用为图像分类、目标检测等问题都提供了额外的彩色信息。图像着色是考虑给灰度图像赋予彩色信息的具有挑战性的问题,在学术和工程等各个领域都有着广泛的应用。同时随着计算机的发展,深度学习具有自动学习出模式特征的特点,能够高效地将特征学习融入到模型的建立,减少人为干预。因此,使用深度学习的方法解决图像着色的问题已成为不可避免的发展
信息过载问题已经成为互联网应用发展所面临的重大挑战问题之一。推荐系统(Recommender System,RS)是最常见的用于缓解信息过载的手段之一,并已被网站和应用程序广泛采用。目前,深度学习方法已经成为提取多模态数据特征的最有效手段,因此,为了更好的利用多模态数据来实现精准推荐,必须对基于深度学习的推荐系统进行分析研究。虽然,深度学习方法是推荐系统研究的前沿热点。然而,由于缺乏对文本和用户数
随着信息技术的发展,计算机视觉在人机交互领域发挥着越来越重要的作用。准确的手部姿态估计能够更好地实现人机交互,传统的方法通过数据手套等可穿戴设备实现了较为准确的人的手部姿态的估计,但是对用户约束较大,难以大规模推广并在一些项目上难以实施,且设备成本较高。随着图像采集设备的小型化和廉价化,基于计算机视觉的手部姿态估计的应用前景越来越广泛。本课题在计算机视觉的基础上基于深度学习实现手部姿态的估计。传统