基于强化学习的多智能体逃逸算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Joetty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代社会智能化水平的提高,针对多智能体的研究成为了当下的热门,而多智能体的追踪-逃逸问题由于同时存在着智能体之间的协同合作与竞争博弈,是多智能体研究中的核心问题之一。自追逃博弈提出以来,追逃问题逐渐发展为一个庞大的问题家族,本文主要针对三维环境下的多智能体逃逸问题展开研究。本文引入了强化学习的方法弥补了传统方法在无模型情况下无法设计控制器的不足。本文提出了一种基于DQN算法的多智能体逃逸算法,该算法为分布式学习。智能体通过两个阶段自我学习,通过设置不同子任务的方法来优化自身的逃逸策略。针对多智能体逃逸算法中可能发生同方智能体碰撞的问题,提出了一种多智能体逃逸与避碰算法。同时为使得多智能体逃逸与避碰算法对任一逃逸者具有普适性与一定的泛化能力,对多智能体的初始状态选取规则进行设计。通过仿真实验对改进前后的算法进行了验证。此外本文还提出了一种集中式多智能体逃逸算法,以解决分布式学习下其余智能体作为环境的一部分导致环境不稳定,进而影响算法收敛的缺陷,并通过仿真实验进行了验证。对仿真结果进行分析,在训练之后,多智能体逃逸算法成功收敛,逃逸方智能体可以采用此逃逸策略成功在三维环境中追踪方智能体地追踪下逃逸。
其他文献
随着雷达、摄像头等传感器以及各类感知算法的不断发展,使得在实际环境中部署无人驾驶技术成为可能。无人驾驶的初衷是为了便利人类出行,而更重要的一点是减少人为造成的交通事故,因此安全性是一辆无人驾驶汽车首要考虑的问题。为了能够对潜在的风险及时做出评估及决策,无人驾驶汽车不仅需要实时的检测周围的环境,还需要预测周围环境的变化,包括车辆和行人。这就需要轨迹预测技术,而行人轨迹预测技术目前的研究已经较为成熟,
随着现代科技水平的不断提高,许多重大工程项目越来越需要对大型构件进行加工,以往通常采用大型机床加工其表面特征,但机床的规格和成本不能随着构件尺寸的增加而无限扩大。为了解决这一问题,可移动的加工设备成为了大型构件加工的研究热点之一,其中工业机器人由于灵活性较好,被广泛应用于生产加工。但工业机器人自身控制系统的开放性并不好,难以针对特定项目进行个性化控制,且刚度弱、定位精度低会导致加工误差较大。因此,
随着机器人行业的发展,人机交互问题也成为了热门研究问题。当机器人末端受到外力的作用时,机器人如何顺应这一外力并且不伤害到人以及不损坏自身成为了研究的重要问题。本文研究内容来源于实验室的科研课题合同,旨在利用灵巧手指尖末端传感器信号的多模态进行柔顺控制,从而完成更多复杂、智能的任务。本文首先对灵巧手指尖传感器和柔顺控制技术的研究现状进行综述,针对目前存在的研究问题确定本文传感器的选择以及柔顺控制技术
工件台是光刻机的核心子系统之一,在对硅片进行对准、调平调焦和扫描曝光等的操作中发挥着十分关键的作用。六自由度的微动台是工件台的核心部件,其跟踪定位精度直接影响光刻机的分辨率。微动台的六个自由度可以分为水平方向和垂直方向两组。水平方向包含X、Y、Rz三个自由度,主要完成硅片的对准和步进扫描,垂直方向包含Rx、Ry、Z三个自由度,主要完成调平调焦。本文主要研究对垂向三自由度的控制,研究内容如下:(1)
我国老年人口的增速在不断加快,而且老年人由于体质弱,在日常生活中常常需要家人等的看护,因此需要全社会的共同努力。随着安防、通信等技术的发展,视频监控成为保障老年人生活的重要手段之一,摄像头可以代替人工来进行查看。但是传统监控摄像头需要投入大量的人力来识别小概率的意外事件,因此本文尝试对于视频监控中的老年人异常行为进行自动化的识别,提高监控视频的利用率,为老人的生命安全提供更全面的保障。根据识别的任
利用霍尔位置传感器实现永磁同步电机的正弦驱动,在实现电机高性能运转的同时减小了系统体积,对提高系统的功率密度具有重要的研究和应用价值。然而,霍尔位置传感器会因加工和安装误差等原因导致输出信号不对称,进而带来转速和角度估算误差增大的问题,影响系统的性能,本文对此进行重点研究,并提出霍尔位置传感器存在偏差情况下的优化控制方案。插值法具有原理简单,估算转子位置不需要电机参数的优点。然而在霍尔信号存在偏差
随着未来空间探测技术的发展,灵动性、机动性成为在轨操作技术未来发展的重要方向,基于机械臂的在轨操作局限性也被逐渐体现出来,需要一种能够搭载操作执行器的太空机器人,来实现太空中更多灵巧性的在轨操作,但是太空机器人在降落至航天器上时会受到很大的碰撞力,影响降落的稳定性。本文提出了一种基于仿猫构型的缓冲机构式太空机器人,通过对猫进行跳跃缓冲机理的研究和仿生试验,得到仿生缓冲机构腿部三关节的主要构型,并建
随着材料科学的发展,越来越多的介电材料变得更薄、更耐用、性能更稳定,并有可能在某些领域取代传统金属。因此,高灵敏度介质厚度传感器的研究不仅对行业中元器件的设计、加工和生产流程具有重要意义,而且可以辅助材料科学的精确研究。与其他厚度检测仪器相比,微波检测手段可以在实现无损检测的前提下,轻松、低损耗地穿透介质材料,并且根据以自身的介电特性变化对应于不同厚度的差异,可以更加准确和可靠地完成检测。然而目前
随着深度神经网络的发展,其在视觉领域优秀的表现引起了国内外学者的关注,基于卷积神经网络的方法已经成为解决视觉领域相关任务的最重要工具。对于天气退化图像的识别及复原来说,一直是国内外学者的研究热门,特别是在自动驾驶领域,这有助于实现全天候自动驾驶。传统的天气识别算法仅仅考虑了晴天和阴天这种静态天气图像的识别,而对于自动驾驶领域来说,汽车行驶的环境往往关注的是动态的天气状况。对于去雾领域,很多研究都假
随着移动机器人运用范围的扩大和作业要求的提高,特殊环境作业对移动机器人提出了更高的要求,攀援机器人能够达到人工作业无法达到的高度并完成相应工作。攀援机器人需要在复杂的环境中寻找合适的落脚点,同时需要考虑自身平衡。因此,根据攀援的环境如何生成既能使机器人整体不失平衡稳定性又能找到使得抓握壁面上的支撑点的路径规划是关键问题。本文分析了攀援的主要问题包括抓取、平衡和路径规划。针对自身平衡问题,首先对攀援