基于深度强化学习的AGV运输路径规划

来源 :沈阳化工大学 | 被引量 : 0次 | 上传用户:atznm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,移动机器人导航在各个领域引起了广泛研究,深度强化学习可以让智能体与未知环境不断交互,从而获得到达目标的最优策略,并不需要任何先验知识,因此深度强化学习应用于移动机器人导航是目前的发展趋势。本文研究的是基于深度强化学习的多AGV路径规划算法,通过基于改进深度双Q网络,提高对值函数估计的准确性和样本的利用率,采用HER策略并结合独立DDQN思想,在稀疏奖励环境中实现多AGV装卸任务,并获得高效且轨迹更短的最优路径,并搭建AGV仿真系统。具体完成的工作有:首先针对DQN算法出现的值函数高估计以及DDQN算法值函数低估计的情况,提出基于DDQN改进的算法来平衡两者,让值函数能够估计更加准确。其次在基于改进的深度强化学习DDQN算法的基础上提出了一种结合后见经验回放的算法改进,解决稀疏奖励问题,样本利用率更高,收敛速度更快。然后根据独立DQN思想,在改进的DDQN算法上,通过共享网络参数来实现多AGV的路径规划。最后搭建AGV系统仿真平台系统,包括AGV模块,中央控制模块,AGV监控模块的,通过仿真系统可以更加贴合现实情况。在相同环境的仿真实验表明,本文改进算法比较传统的深度强化学习算法在多移动机器人路径规划的奖赏值收敛速度以及成功率方面都有一定程度的提升和优化,可以让深度强化学习算法更好的应用于复杂环境下的多移动机器人路径规划问题。
其他文献
目的 分析河南省20~69岁人群高血压患病率变化情况,探讨高血压影响因素。方法 对2000年、2010年和2020年国民体质监测河南省抽样点20~69岁人群体质数据资料中高血压监测指标进行分析。基于2020年调查数据,采用χ2检验对高血压患病情况进行单因素分析,并采用二分类Logistic回归分析高血压患病的影响因素,以P<0.05为差异具有统计学意义。结果 2000年、2010年和2020年共调
期刊
近年来,卷积神经网络(Convolutional Neural Network,CNN)在图像识别、语音识别和自动翻译等方面取得了良好的效果。然而,为了解决复杂的抽象问题,追求更高的识别准确率,卷积神经网络模型层数、结构复杂度和计算量不断增加。在通用计算平台加速卷积神经网络具有较高的性能,但会带来功耗高和便携性不足等问题,难以满足可移动、低功耗等嵌入式场景的要求。现场可编程门阵列(Field Pr
学位
在机床加工过程中,刀具会随着机器切割工序的进行而产生磨损,刀具的磨损是无法避免的,并且刀具发生严重的磨损将可能会导致崩刃,引发事故,影响生产安全。如果不能准确的预估刀具的磨损,还会出现刀具还未完全磨损就更换,而造成刀具造成浪费。有效地预测刀具磨损值是铣削过程中不可或缺的一个环节,因此,设计和实现一个可进行磨损情况监控和磨损值预测报警的刀具磨损预测平台对现实工程具有重要价值。本文通过对机床加工过程中
学位
当前,无线传感器网络节点通常依赖传统的化学电池供电,在某些应用场景,如原始森林、海洋等,为其更换电池较为困难,因此为无线传感器网络节点提供长期稳定的电能成为了亟需解决的问题。涡致振动是自然界中一种普遍的现象,利用涡致振动使得压电俘能器产生周期性摆动,从而将振动能转化为电能为无线传感器网络节点供电成为了研究热点。当无线传感器网络节点供电需求较大时,单一结构压电俘能器无法满足供电需求,而阵列式压电俘能
学位
近年来,无线传感器等微电子设备广泛应用于国防、环境监测、灾难预防等领域,依赖传统的化学电池为其供电,不仅对环境有一定的污染,而且某些场景电池更换困难,因此为无线微电子设备稳定持续的供能成为亟需解决的问题。涡致振动是自然界中一种常见的现象,利用涡致振动使压电材料产生周期性的机械振动,将机械能转化为电能为无线设备供电的研究受到了国内外研究者的广泛关注。当无线设备的供电需求较大时,单一的压电能量收集结构
学位
随着工业4.0时代的到来,提高服装产线的产能对于加速纺织行业产业转型具有非常重要的意义,目前我国服装制造业中的质量控制大多采用人工检测的方式,劳动强度大,人力成本高,效率低下。随着机器视觉技术的日趋成熟,部分企业使用了基于机器视觉的疵点检测系统,一定程度上改善了人工检测的不足,但现有的疵点检测系统多是依赖于专家经验来提取疵点特征,其通用性较差。针对以上的局限,本文提出了基于机器视觉和深度学习的布匹
学位
近年来,单目标优化问题和多目标问题都已无法满足人们在各行各业中越来越复杂的需求,因为超多目标问题在各个领域受到广泛应用,所以与超多目标优化问题相关算法研究也有着重要的意义。目前超多目标优化问题求解算法研究存在一些问题需要解决,例如:随着目标个数的增加,Pareto解的数量呈指数级增长,导致解集的收敛性与多样性严重失衡,对算法的性能造成了严重的影响。实际上由于问题的复杂性,超多目标进化算法的研究在理
学位
随着城市化建设的高速发展,高层建筑的数量不断增多,电梯作为高层建筑中的主要运输工具,与人们的日常工作和生活息息相关。电梯轿厢内部环境密闭,发生异常行为时,外界不容易直接观察到。通常在电梯顶部安装监控摄像头,进行异常行为的检测。传统的人工监控法存在监控人员易疲劳、误报漏报现象多、报警响应时间长、异常发生后调查取证困难等多种弊端。通过图像处理、视频分析等技术对电梯轿厢内的异常行为进行智能的检测,对维护
学位
如今科学技术不断进步,机器人产业蓬勃发展,由于仿人机器人具有酷似人的外形及灵活的作业性能,仿人机器人的研发风靡全球。网络的快速发展不仅为我们的生活带来了便利,同时以网络为媒介的遥操作机器人也成为了当今世界研究的热点之一。在一些特殊环境下,仿人机器人不能独立自主的完成复杂任务,为了保障复杂环境下机器人的作业能力,本文将对基于网络的仿人机器人的控制方法进行研究。本文的研究内容如下:首先搭建了仿人机器人
学位
白藜芦醇(Resveratrol,RES)作为一种非黄酮类生物多酚类天然化合物,已被确认具有良好的抗肿瘤活性,可作用于多种分子信号通路。在抑制肿瘤细胞的同时对正常细胞影响较小。但其较差的水溶性导致其生物利用度较低,且代谢迅速,以至于血药浓度达不到治疗浓度。为了改善Res的用药缺点,本课题结合了智能响应水凝胶具有高亲水性、良好生物粘附性和可作为药物缓释载体的优势,构建了白藜芦醇温敏凝胶给药系统,该系
学位