基于改进深度Q网络算法的机器人路径规划研究

来源 :宁夏大学 | 被引量 : 0次 | 上传用户:ylycxr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的不断进步,越来越多的机器人被应用在各种各样的场景中,移动机器人作为智能机器人的重要分支,其路径规划问题一直是国内外学者的研究热点。近年来,随着人工智能技术和芯片算力的飞速发展,移动机器人的应用领域也不断扩展,同时对机器人的性能提出了更高的要求。目前大多数针对路径规划的算法研究都是基于已知环境信息的基础上,缺乏自主学习的能力,无法在未知环境下找到一条比较好的路径。因此,本文将深度强化学习算法应用到移动机器人路径规划问题中,使移动机器人可以通过与环境交互进行学习,实现复杂环境下的自主路径规划,并针对其中存在的不足提出改进。本文的主要研究内容如下:首先,介绍了深度强化学习相关理论知识,分析了深度Q网络(Deep Q Network,DQN)算法原理,针对算法中存在的不足,通过改进网络结构及探索策略,提出一种面向室内移动机器人路径规划任务的改进深度Q网络算法。其次,针对室内移动机器人路径规划问题,分析其环境情况及数据特点并基于此设计了强化学习模型的动作空间,状态空间,奖励函数,为了解决一般奖励函数存在奖励稀疏,只有到达目标点后才能获得正向奖励,而过程中毫无奖励导致算法效率低的问题,结合势函数的思想对奖励函数进行了改进。最后,基于Linux平台中的ROS系统利用Gazebo工具搭建了移动机器人的仿真环境,调试设置相关参数,并在此环境下对传统DQN算法和本文提出的改进DQN算法进行路径规划实验,实验结果表明本文提出的改进算法收敛速度更快,路径规划效果更好,并在现实环境中进行了验证实验。
其他文献
在搜救领域中,透过程序完成半自主或自主飞行控制,无人机能够协助救难人员更好地完成救援任务。搜救任务中涉及到多个目标间的搜索,相比于单目标的搜索问题,需要更复杂的算法或是奖励重塑形式,才能改进其稀疏奖励的问题。此外,搜救任务比起一般的强化学习问题,更讲究时效性。如何利用搜救的先验知识对算法进行改进,从而提高完成任务的效率和训练时间,是机器学习应用的研究重点。针对搜救任务背景,研究了无人机在多目标问题
<正>2022年以来,全球经济形势复杂严峻,主要发达经济体通胀维持高位,货币政策延续收紧态势,新冠疫情继续蔓延,俄乌冲突超预期,金融市场大幅震荡,潜在风险不断聚集。相较而言,国内债市整体较为平稳,受资金面、疫情、房地产政策等方面影响,利率低位震荡,部分时点市场波动有所加剧。
期刊
广角反射勘探方法可以在地下地质条件复杂地区提高深部地层地震记录的能力。南黄海中部隆起区构造复杂,高速屏蔽层对下伏地层反射波有强烈的屏蔽作用,且深层没有大的波阻抗差界面,造成深层目的层的反射能量弱。针对该地区的地质条件,根据弹性波波动理论,运用Zeoppritz方程对单一分界面的反射透射系数及能量进行分析,并且依据南黄海中部隆起区的以往资料建立模型进行广角反射正演模拟,通过处理得到的叠加剖面显示远偏
实现碳达峰碳中和是我国应对全球气候变化、共谋生态文明建设的必由之路,也是促进可持续发展、构建新发展格局的战略部署,不仅对可持续生产方式的变革起到了重大引领作用,还将为推动可持续消费转型增添新动力。本文基于阶段变化理论,构建了可持续消费行为“前意向—意向—计划—行动—维持”五阶段模型,依据“国家战略—地方推行—企业落实—个人响应”的路径分析了围绕“双碳”目标的政策体系如何影响消费者由被动接受到主动践
<正>不等式证明题的题型多变,解法多种多样,对同学们的数学思维和逻辑推理能力有较高的要求.证明不等式的方法有很多种,如比较法、分析法、综合法、导数法、构造法、放缩法等.下面重点探讨一下比较法、综合法、分析法、放缩法.一、比较法比较法是证明不等式的基础性方法.运用比较法证明不等式,需将不等式左右两边的式子作商或作差,然后将商式与1进行比较,将差式与0作比较,再根据所得的结果证明不等式.
期刊
简述了萨瓦尼尼、绅名科技、力丰及海克斯康在国家“双碳”目标下所做出的战略调整、技术革新、发展理念及未来规划。
在以实现“碳达峰、碳中和”目标为宗旨的前提下,绿色信贷成为商业银行赋能绿色金融发展的一个重要途径。我国的绿色信贷政策体系日臻完善,余额规模持续扩大,带来了良好的环境效益和经济效益。我国应统一绿色信贷标准体系、设计政策激励机制、更新信息共享和绿色认证技术,促进商业银行加强自身实力建设、加快绿色信贷产品品类和融资模式创新、完善相关成本收益核算机制,让银行业的绿色信贷业务更好地助推“双碳”目标的发展。
动态避碰路径规划是多智能体导航的重要组成部分。基于状态预测和优化的路径规划方法在理想条件下能够解决动态避碰问题,但鲁棒性和实时性较差。深度强化学习方法能够有效弥补这方面的不足,但其训练过程存在效率低、耗时长的问题。本文提出一种将深度强化学习与状态预测相结合的多智能体动态避碰路径规划方法。通过引入状态预测判断碰撞位置和时间,量化碰撞风险,使智能体优先避让当前碰撞风险最大的障碍物,以此将多障碍物避碰问
学位
目的:探索m~6A去甲基化酶ALKBH5调控受体酪氨酸激酶(AXL) mRNA甲基化,增强卵巢癌细胞(SKOV3)迁移、增殖及耐药的作用机制。方法:利用CPTAC数据库分析ALKBH5蛋白在卵巢癌中的表达情况及其与总生存期的相关性。对SKOV3细胞过表达或敲低ALKBH5,CCK-8法、平板克隆法、划痕实验分别检测细胞的增殖、迁移和化疗药物耐药性;流式细胞术检测细胞凋亡;RNA稳定性实验检测ALK