基于深度强化学习的多智能体集群区域覆盖算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:vazumi126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对目标区域的监视或者搜索是多智能体系统的重要应用领域之一。区域覆盖算法作为多智能体系统的一种控制算法,决定着系统能否高效率的完成区域覆盖。因此,优化区域覆盖算法,提高区域的覆盖效率对多智能体系统的应用具有重大的意义。目前对区域覆盖算法的研究主要集中在:智能体的运动控制模型的改善和覆盖点规划的优化。但目前研究仍存在以下问题:(1)智能体难以同时考虑自身当前的覆盖状况以及邻居的覆盖状况来对覆盖点进行协同规划;(2)智能体在覆盖点规划的过程中无法考虑当前规划对整个覆盖过程的影响;(3)智能体之间的通信数据量大,以及覆盖点规划的时间消耗大,导致系统难以满足实时控制的要求。上述三种问题是造成区域覆盖算法的覆盖效率较低的主要原因。本文针对上述问题,将深度强化学习应用到区域覆盖算法中,利用深度强化学习的自主决策以及过程经验学习的能力,实现对整个系统覆盖过程的全局优化。基于Deep Q-learning算法,本文提出了两种多智能体区域覆盖算法,它们分别适用于自由区域的区域覆盖和有障碍物区域的区域覆盖。在Deep Q-learning的实现中,本文以目标区域的信息地图作为网络模型的训练样本,并根据训练样本的特点,设计了一种轻型卷积神经网络结构。该结构可以有效提取智能体的状态特征并选择全局最优行为,以满足覆盖点规划的实时要求。训练后的网络模型在具体试验中有效减少了重复覆盖的区域面积,并显著提高了区域覆盖效率。为加快Deep Q-learning模型的训练速度,本文提出了一种多智能体协同训练的方法。在训练过程中,所有的智能体共享同一个样本池,并训练一个公共的网络模型。为增加样本量提高网络对样本的适应性,本文利用旋转和镜像的方式进行数据集增强。此外,本文还提出了一种信息地图数据的编码方式,这种方法很大程度地降低智能体之间通信数据的传输量。通过对本文提出的区域覆盖算法进行仿真,并和其他算法对比,结果表明该算法具有更高的覆盖效率和更好的稳定性。算法的鲁棒性测试中,在智能体的控制量中加入高斯噪声或者随机中断智能体之间的通信,模拟不稳定的环境和弱通信场景,多智能体系统仍能高效率的完成区域覆盖,表明算法具有良好的鲁棒性。
其他文献
无线传感器网络是一个低成本、灵活性强、易于部署的自组织网络,在目标探测、事件监测等军民领域具有广泛的应用前景。通常,无线传感器网络节点面临着计算能力、能量资源的限制。因此,如何减少传输数据冗余,降低节点能耗,保护数据安全成为无线传感器网络研究的热点问题。数据聚合是由网络中的传感器节点收集数据,通过上层聚合节点对收集的数据进行处理,是传感器网络数据处理的重要手段。目前,基于数据平均等简单的数据聚合算
随着信息技术及电子战的迅猛发展,雷达信号自动调制识别作为电子对抗侦察中重要一环,成为了目前信息化电子战的研究热点。传统的雷达信号自动调制识别方法主要采用脉冲描述字浅层特征和模板匹配过程。当面对日益复杂的战场电磁环境,传统方法往往计算量较大且依赖于专家知识,识别性能难以满足要求。近年来,伴随深度学习的兴起和广泛应用,深度学习神经网络被引入雷达信号识别方法中,尽管基于深度学习的识别方法取得了不错的识别
多输入多输出(Multiple input multiple output,MIMO)雷达是一种新型雷达,用来应对日益复杂的战场环境。MIMO雷达相较于传统的雷达具有更好的波形分集能力,并且可以改善目标识别和参数估计等各方面的性能表现。MIMO雷达根据天线阵列的放置情况来分为集中式和分布式。两者均可通过发射正交波形来提高性能,其中发射正交波形可以让集中式MIMO雷达在接收端形成虚拟孔径来提高参数估
环境声音识别(Environment sound recognition)是指让计算机设备以一定的算法方式对采集到的环境声音进行分类与处理的过程,其在智能机器人、移动设备监测、自动驾驶、环境安全监控、智能家居、智慧城市等领域都有广泛的应用前景,是计算机听觉(Computer Audition)领域重要的研究方向之一。环境声音分类和增强是声音识别领域重要的研究内容。随着人工智能技术的不断发展,神经网
随着社会经济的不断发展,人民群众对于生活品质和人居环境的要求不断提高,噪声污染问题也日益凸显。由于噪声的产生与人们的生活状态、主观意愿高度关联,先进的技术手段对于噪声监测和防治必不可少。定向声波发射技术可以用于具有高指向性的声源装置,由于避免了声波的扩散,从根本上减少了噪声的产生。参量阵是定向声波发射的代表性技术之一,可以在较小尺寸上实现定向声波发射。虽然许多的研究工作都致力于降低参量阵的失真水平
无线传感器网络具有无线感知以及无线通信的作用,是重要的三维网络研究技术之一。传感器网络由多个具有自组织能力的节点组成,是当前网络研究中的一个热门领域,应用于多个领域方面,例如军事预防,地震监测,环境监测以及海底勘探等。目标跟踪技术是研究三维空间发展的重要部分,利用多个传感器节点的数据信息估计出目标当前时刻的状态。在目标跟踪系统中,利用滤波技术估计目标运动状态,根据滤波算法来消除相关的不确定性,实现
切换系统是一类动态混杂系统,由若干个子系统和一个协调子系统运行的切换规则构成,其在理论研究和实际应用中有着重要作用。在现代科技社会中,切换系统有着广泛的应用,如机械自动化、电力电子、交通网络等,并且关于切换系统的研究也日益受到关注。为了减少切换系统稳定性条件的保守性,本文引入矩阵多项式用于构造李亚普诺夫函数。矩阵多项式可以引入更多自由变量,从而降低线性矩阵不等式条件的保守性。根据这一特性,本文将矩
随着智能交通的需求,车联网系统是改善城市交通压力的一个重要突破点。其中车辆计数已经成为一个重要的问题,它可以用来缓解交通拥堵,提高交通灯的通行效率。城市规模的多摄像机车辆跟踪也是智能城市和交通管理中的重要任务。道路交通异常检测是计算机视觉的基础工作,在视频结构分析和城市交通分析中起着至关重要的作用。本文针对车联网环境下基于深度学习的路网交通优化研究,将主要对车辆计数、车辆跟踪和交通异常检测方法进行
目标定位,特别是多目标定位问题,一直以来都是信号处理领域内的重点问题,目标定位在雷达、声呐以及导航系统中都起着至关重要的作用,在射电天文学,地震学等领域中也得到了广泛的应用。近年来,目标直接定位(direct position determination,DPD)算法因其在某些条件下更加出色的性能,逐渐成为了目标定位算法中的研究热点。随着分布式无线传感器网络相关研究的不断深入,分布式算法可拓展性和
目标检测是指首先预设一组与任务相关的类别,然后使用算法检测出图像中可能存在属于预设类别范围的目标。它是目前计算机视觉领域最为核心的任务之一,作为上游任务对其下游任务有着积极与深远的影响。虽然目标检测从传统方法阶段到深度学习阶段的发展历史久远而且非常成熟,但是目标检测应用于特殊领域,比如水下目标检测、无人机目标检测等还具有巨大挑战。由于数据采集困难,相比现有大规模公开数据集,这些领域的影像的规模和内