基于强化学习的多无人机路径规划

来源 :四川大学 | 被引量 : 0次 | 上传用户:jj1385173
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单个无人机的应用场景相较于多无人机来讲局限性较强、任务执行效率较低,多无人机协同具有更好的稳定性、适应性,因此多无人机协同技术的研究显得十分关键。而多无人机的路径规划是无人机协同技术的基石。Dijkstra算法和A*算法是路径规划技术的经典算法。此类算法对于已知环境能够规划出合理路径,但是对于未知环境,算法表现则不太令人满意。一些智能优化算法,如蚁群算法、粒子群算法、遗传算法等,也被用在无人机的路径规划中。此类算法通常是在任务空间进行路径最优解的搜索,算法模型复杂且计算量大,不能应对随机环境,并且很难进行实时的路径规划。针对以上各类路径规划算法的不足之处,同时结合无人机协同的具体任务类型,本文以强化学习为基础研究多无人机在未知环境中的路径规划。本文将多无人机任务场景概括为两种:汇合任务和分配任务。这两种任务类型涵盖了常见的多无人机协同场景。本文的主要工作及创新点如下:(1)针对多无人机在汇合任务场景下的路径规划,本文以深度强化学习算法DQN为基础,同时借鉴人工势场的思想来设计强化信号,提出了APF-DQN模型。该模型克服了强化学习过程中由稀疏奖励信号导致的模型收敛慢、效果差等问题,且能更好引导无人机到达汇合点。此外,基于Open AI Gym,本文开发出了一套训练环境用于智能体的训练。本文进行了APF-DQN模型和DQN算法的对比实验,实验结果表明APF-DQN模型能够更快收敛,且回合步数更短。本文还进行了APF-DQN与传统人工势场法的对比实验,实验结果表明APF-DQN模型能够较好的解决目标点不可达以及局部最小值问题。(2)针对多无人机的任务分配场景下的路径规划,本文将路径规划分为任务分配和路径规划两个相互交融的阶段。无人机的任务分配采用了自组织映射网络模型,同时针对传统自组织映射网络模型在无人机目标分配中存在的摇摆、不收敛问题,本文提出了一种两阶段迭代的改进SOM算法。实验结果表明,改进的SOM模型能够较好地克服摇摆问题,能够消除摇摆现象,同时保持了SOM模型的自组织特性。各架无人机在经过任务点分配之后,使用APF-DQN模型进行未知环境下的路径规划。针对任务动态变化所导致目标点变更以及无人机下线等不可预测的状况,本文使用自组织映射网络进行任务的动态重分配并通过实验仿真了以上各类状况,仿真实验证实了动态重分配的可行性。通过这种模式,能够很好的提高多无人机完成任务的成功率,一定程度上体现出了无人机集群的稳定性和适应性。
其他文献
在软件开发流程的前端开发环节中,前端开发人员需要根据UI(User Interface,用户界面)设计图编写对应的界面代码。为了1:1还原UI设计图中UI组件的位置与样式,开发者通常采用一种不断试错的方式进行界面代码编写,这是一项耗时且重复的工作。实现从UI设计图到界面代码的自动转化,可以避免这种重复的试错过程,提高开发效率,有利于软件的快速迭代。近年来,有不少工作利用深度学习技术,致力于将UI设
随着深度学习的发展,中国古典诗歌的自动生成研究取得了很大的进展。近年来,研究人员在关注如何提高自动生成诗歌质量的同时,提出了根据图像信息生成诗歌这一跨模态任务。目前,针对该任务的研究方法仍然存在诗句主题偏移和语义不一致的问题;同时一些重要的图像信息不能准确的被表达在生成的诗歌中;而且在训练过程中,图像和诗歌的配对数据集存在质量差和难以构建的问题。本文针对这些问题,提出了一种基于深度学习的图像生成诗
鞍区的周围毗邻着Willis环、视神经等重要的神经血管结构,是病变的好发部位。颅咽管瘤(Craniopharyngioma,CR)、鞍结节脑膜瘤(Tuberculum Sellar Meningioma,TSM)、Rathke’s囊肿(Rathke’s Cleft Cysts,RCCs)和垂体瘤(Pituitary Adenomas,PAs)是鞍区最为常见的病变。磁共振成像(Magnetic Re
值函数估计在深度强化学习算法中应用广泛,并且在状态和动作空间较复杂的环境中可以解决传统强化学习中遭遇的维度灾难问题。因此,值函数估计的研究在深度强化学习领域具有十分重要的意义。但在深度强化学习算法值函数估计的过程中存在一些问题:(1)在更新值函数的过程中,算法普遍选择当前状态下最大的动作状态值(Q值)估计来计算目标Q值,导致算法过高估计Q值,对性能造成不利影响。(2)基于值函数的深度强化学习算法在
自然语言处理中的信息抽取任务是指抽取自然语言文本中的实体、实体关系和事件等结构化信息,是一种将非结构化或者半结构化的文本数据,转化为结构化信息的技术。随着互联网的飞速发展,网络上存在越来越多的以文本形式存在的数据,如何快速将大量无结构的文本数据转化为有结构的信息,为下游应用提供数据支撑,是信息抽取需要解决的问题。信息抽取的具体任务包括命名实体识别、实体关系抽取和事件抽取。其中,命名实体识别与实体关
交通标志检测在辅助驾驶以及无人驾驶领域中都有重要地位。在这一领域,技术方法百花齐放,都是对获得的标志图像进行检测。其中使用深度学习检测算法进行交通标志检测已经成为当下交通标志检测的重点研究领域。在道路交通中,由于复杂的道路交通情况以及驾驶员可能出现的身体不适或者精神不集中等情况,单靠驾驶员用肉眼识别交通标志常常会出现各种各样的问题,所以通过其他方式进行交通标志检测的需要逐渐增大,同时在智能交通和自
RNA结合蛋白(RBP,RNA Binding Protein)是普遍存在的能与RNA结合的蛋白质的总称,RBP通过与RNA特异性结合,直接或间接地调控RNA的表达。在生物体内大部分的RNA发挥作用都要与蛋白质相结合,RBP与特异RNA结合的过程又称为RNA-蛋白质相互作用。RNA-蛋白质相互作用的预测是目前生物医学工程领域的重要研究课题,如何利用计算方法提高其预测精度成为当今国内外研究的热点。现
肾脏疾病在现代社会中已成为全球发生率第四高的重要疾病,在我国更有超过11%的人口属于不同程度的肾脏病患者,全球每年超过百万肾脏患者发展成为肾衰竭、肾肿瘤等恶性病变。肾脏病变的早期筛查对于及时诊断和控制病情发展有着重要作用,而肾脏疾病的临床诊断十分依赖于彩超和CT等医学影像检查方式以及医生的专业水平。但在我国,医生以及医疗设备等医疗资源随地域分布严重不均,同时医生需要分析和处理大量的影像数据,人工阅
预后(Prognosis)指对疾病可能的进程及结果的估计。癌症基因组图谱(The Cancer Genome Atlas,TCGA)等数据库的出现为研究人员提供大量丰富且权威的数据,推动了基于基因组学数据的癌症预后预测研究。当前,癌症预后预测的研究成果主要集中于BRCA、NSCLC、GBM等样本数较多的疾病类型;预后预测模型更多从生物学角度对基因特征进行分析,缺乏从计算角度分析基因特征进而发现潜在
光学相干层析(Optical Coherence Tomography,OCT)是一种利用光的干涉现象对样本进行断层扫描的成像技术,因其对人体无伤,成像深度大,成像分辨率高,对生物组织的层析能力强等特性而被广泛地应用于医学诊断和辅助治疗之中,尤其在眼科前景广阔。但是,目前主要有两个问题阻碍了OCT技术的进一步发展:1)低相干干涉成像引入的散斑噪声问题。OCT成像系统采用宽带光源,在进行低相干干涉成