基于强化学习的移动机器人路径规划研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:xiaoxiao_666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的路径规划算法大多采用监督学习策略,不仅需要已知大量环境信息,还可能陷入局部最优,强化学习算法由于采用无监督学习策略,机器人能够在移动的过程中与环境进行交互从而学习并且积累经验,实现自主寻优。本文针对基于强化学习的移动机器人路径规划存在的问题,提出了AMD_Q-learning、E_PE_D3QN和Self-Attention-DQN算法,不仅能提高寻优效率,还能避免维数灾难,更好的平衡探索与利用的关系。首先,论文对Q-learning算法及其在路径规划中的应用进行了研究,分析了其存在的问题,提出了AMD_Q-learning算法。AMD_Q-learning算法使用优化后的人工势场初始化Q表,增强了移动机器人在寻优初期对环境的感知能力;采用多步长策略丰富机器人的动作集,减少了机器人的移动步数并优化了最优路径;设计具有动态调节能力的贪婪因子,使移动机器人能更好的平衡探索与利用的关系。其次,分析了DQN算法及其在路径规划中的流程。在寻优环境以栅格坐标作为深度神经网络的输入时,针对基于深度神经网络的DQN算法的不足,设计了E_PE_D3QN算法:在D3QN的基础上,一方面引入优先经验回放机制对经验池中的样本重新排序,提高重要样本的采样概率,从而提高寻优效率,另一方面通过建立奖励值与贪婪因子之间的映射关系自适应调节贪婪因子,优化DQN算法中的探索与利用问题。在寻优环境以图片形式作为深度神经网络的输入时,设计了具有更强关键特征提取能力的采用多头自注意力机制的卷积神经网络,并基于该网络设计了Self-Attention-DQN算法,在每个卷积层之后添加了批量归一化算法,统一数据分布,加快训练速度,并且使用全局平均池化代替全连接层从而减少网络参数,防止信息过载。最后,分别在栅格环境和地图环境下进行了仿真实验。实验结果证明,相较于改进前的算法,本文提出的算法具有更好的寻优路径,更高的寻优效率。
其他文献
区域游戏是面向幼儿的一种重要的自主活动形式。通过研究发现,幼儿自身生理特点、游戏的趣味性、教师建立规则的方式以及家园规则的一致性等影响幼儿规则的养成。教师可以通过体验建构、正面强化和指令提醒的策略提升幼儿的规则意识。
基于WRF模式和GSI同化系统,构建了一套同化预报系统,研究常见的两种同化方法 3DVar(threedimensional variational)和3DEnVar(three-dimensional ensemble-variational)的应用,开展不同的嵌套区域采用不同的同化方法对模式预报效果的影响研究。基于本系统,分别设计三组试验,评估不同的同化方案对2019年8月第11号台风“白鹿”
配电保护运行环境复杂多变,时常面临恶劣自然环境和强电磁干扰。为提升配电保护运行可靠性,加强配电保护防护水平,研究提出了一种高可靠强防护配电保护设计方案,从提升保护装置内部各个模块的软硬件性能入手提高配电保护装置的运行可靠性,从加强机箱、板卡等防护水平等方面提升配电保护装置抵御恶劣运行环境的能力。
<正>连云港海洋滩涂资源丰富,具备建成光伏发电基地的优良条件。海洋滩涂光伏电站建设有助于改善当地能源结构、缓解当地供电压力、促进经济绿色健康发展,连云港发展海洋滩涂光伏电站有着巨大空间。海洋滩涂主要指平均高潮线以下低潮线以上的沿海区域,即沿海大潮高潮位与低潮位之间的潮间地带。所以,
期刊
受中美科技脱钩、新基建和十四五规划等国家战略的影响,人工智能已逐渐成为企业创新发展的新动力,是数字经济关键驱动因素,而智慧社区正是融合该技术的典型应用,具有地理空间固定、需求波动大、技术新颖、管理复杂等特点,尤其是在新冠肺炎疫情防控时期,通过技术手段减少人们的非必要接触,也逐渐成为疫情防控时期智慧社区安防要肩负的新使命。J项目是由G公司为J公司承建的智慧社区安防项目,包括三维可视化调度和无接触便捷
全国大学生英语四、六级考试作为高校学子关注度较高的英语标准化考试,使得许多大学生提高了英语综合能力和国际化交流水平。但还有部分高校学生在考试失败之后没能合理归因,失去了英语学习的动力,成为“大学英语特困生”。本研究以归因理论为视角对“大学英语特困生”的个案进行考察分析发现,能力、努力、考试难度、教学与学习环境这四个因素是这个群体最常见的失败归因。因此,高校公共英语教育可以在这四个方面对其进行归因指
笔者执教课题是"函数图象及其变换",执教班级学生基础较为薄弱,知识遗忘现象严重。函数是高中数学学习的核心概念,在课堂教学中,对教学内容,教学时间合理的取舍,以达到突破重点难点,渗透数学思想方法,打造高效课堂。
医院感染管理专业人员是预防和控制医院感染的执行者,人员对专业知识的掌握程度、处理态度和工作能力直接影响院感防控效果,影响我国医院感染预防与控制学科的发展。文章采用SWOT分析法对医院感染管理专业人员培训的优势、劣势、机会和威胁4个方面进行分析,探讨影响医院感染管理专业人员培训的内部及外部因素并提出应对策略,以期全面提升医院感染管理专业人员的培训工作。
自主导航是移动机器人运行不可或缺的关键技术,现阶段多数室内自主导航需要通过稠密地图以实现路径规划,对于陌生环境无稠密地图情况难以实现,因此需要一种无稠密地图的导航技术,基于学习的导航方式为此提供了思路。本文在四轮差动平台的基础上,通过研究现有的深度强化学习导航算法,并在此基础上针对其存在的问题进行改进优化,赋予移动机器人在动态非结构环境中稳定、安全、快速的导航能力。本文主要研究基于深度强化学习的移
目的:研究良恶性复杂性气道狭窄行介入治疗中应用可弯曲支气管镜联合硬质支气管镜的效果。方法:选取临沂市中心医院2018年4月-2021年4月收治的90例良恶性复杂性气道狭窄患者,依据随机数字表法,分为对照组(45例)与观察组(45例),均行介入治疗,分别采用可弯曲支气管镜、可弯曲联合硬质支气管镜,评估并比较两组临床疗效,同时对治疗前后舒适度、生活质量、气促指数及狭窄程度进行比较。结果:治疗后3个月,