移动机器人深度强化学习路径规划研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:xuan_98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学的蓬勃发展与信息技术的日新月异,越来越多的研究人员将精力投入到人工智能领域,机器人技术无疑是其中最热门的技术之一。大量的机器人被应用到农业、工业、服务业等各大行业以及军事、航天等国家级事业,移动机器人更是其中的主力军。移动机器人在已知环境下的导航研究已经相对成熟,但是更多的研究偏重于静态环境下的路径规划,比较依赖已知地图信息,不具有快速响应复杂变化的能力,缺乏自主决策能力。因此,提高移动机器人在动态复杂环境中的学习能力和实时决策能力是当今的研究热点与发展趋势。强化学习作为一种通过不断试错从而自我学习的算法,具备极强的成长能力和决策能力,深度学习的发展更是解决了强化学习中的维数灾难问题,由此深度强化学习逐渐成为解决智能控制中缺乏自主性问题的主流方法。本文利用并改进深度强化学习中的值函数算法,提出基于自适应衰减贪婪策略的PER D3QN方法,研究移动机器人在不同场景下的路径规划问题。首先,本文对深度强化学习的基础理论和相关算法进行深入研究。在深度Q网络中加入目标网络和对抗网络,使智能体能够更准确地判断出当前状态下选取哪个动作会更有利于收敛,形成初步的D3QN算法;并且考虑到深度Q网络中无差别存储的样本会降低经验回放效率,本文参考优先回放机制,对不同权重的样本进行有序存储和采样,提出PER D3QN算法;此外,针对强化学习中探索与利用的平衡问题,提出一种自适应衰减贪婪策略,合理分配对新环境的探索和对旧知识的利用,加快收敛速度。其次,本文利用仿真对算法进行验证和分析。通过十臂赌博机仿真验证自适应衰减贪婪策略的优越性;随后在Open AI Gym平台的倒立摆仿真中,验证PER D3QN算法比DQN及其衍生算法在算法收敛和稳定性上更具优势;进一步在Ubuntu操作系统和机器人操作系统软件构架下,基于Gazebo物理仿真平台搭建移动机器人和无障碍物、静态障碍物、动态障碍物以及复杂动态障碍物环境,对比传统算法与深度强化学习算法在仿真中的路径规划结果,验证了本文算法在动态环境中具有良好的适应性。最后,本文搭建实际Turtlebot移动机器人平台验证算法。利用Kinect深度相机观测环境,采用仿真实验的网络模型与训练完成的网络参数,在实际环境中测试移动机器人路径规划的效果;应用Gmapping建图方法建立实际环境地图并利用传统路径规划算法完成目标导航,对比两种算法的实验结果,验证本文算法在实际路径规划的有效性。
其他文献
随着经济全球化的发展,使得运输业日益繁荣,增加了运输业对船舶的需求量,导致航路上船舶的密度也在增加,提升了船舶之间发生事故的可能性。因此,本文以受限水域为背景,对静态障碍物使用不规则图形处理,增大航行水域面积,减少航程;并将航行规则与改进后的人工鱼群算法相融合,解决避碰路径不符合航行规则问题。本文研究内容如下。首先,标准的人工鱼群算法在迭代进程当中其视野与步长值是不变的,影响到其搜索结果,也会导致
学位
近年来,船舶运动控制在海洋环境保护、军事任务执行等领域有着广泛的应用,受到世界各国越来越多的关注。众多国内外学者对船舶运动控制展开了深入且全面的探索与研究。本文针对全驱动三自由度水面船舶在海洋运动过程中的轨迹跟踪和编队控制问题展开了研究,首先设计观测器估计复合扰动,再利用反步法、滤波器以及滤波误差补偿等方法设计控制器,从而实现控制目标。具体研究内容如下:1、研究了具有模型不确定及时变扰动下的船舶轨
学位
解决欠驱动三自由度水面船舶的运动控制问题,不仅有利于节约能源,还可以为全驱动船舶运动控制提供备用方案;欠驱动三自由度水面船舶在运动中主要产生纵荡、横荡、艏摇等三个自由度的运动,而大多数的欠驱动三自由度水面船舶只有纵荡推力和艏摇力矩的控制输入,要解决其运动控制问题存在较大的难度。因此,开展欠驱动三自由度水面船舶运动控制研究,具有非常重要的理论意义和实际应用价值。本文主要针对实际环境中存在复杂时变的强
学位
欠驱动自主水下航行器(Autonomous Underwater Vehicle,AUV)是目前探索未知海域最有效的工具之一,能够完成沉船打捞、地形地貌测绘、海底搜救等任务。在执行海底地形勘探和水下管道铺设等任务时,AUV需要与海底保持恒定高度航行,即地形跟踪。本文将回声测深仪作为信息采集的传感器,对欠驱动AUV的地形勘测运动控制问题进行了如下研究:(1)针对欠驱动AUV在模型参数摄动和时变环境扰
学位
随着无人机(Unmanned Aerial Vehicle,UAV)技术的快速发展,UAV在军事和民用领域得到广泛的应用。单架UAV载荷有限,执行任务效率低等问题逐渐突显出来,多UAV协同执行任务是无人机自主能力的重要体现,是更高层次的自主。其中,航迹规划及控制作为多UAV协同中亟待解决的关键问题,对提升自主执行任务能力起着至关重要的作用。本文以多UAV协同搜索海域目标为研究背景,对涉及到的航迹规
学位
随着全球海洋资源的发展和军事装备竞争的日益激烈,无人海洋航行器(Unmanned Marine Vehicles,UMVs)控制系统的研究越来越受到国内外的关注。无人海洋航行器作为了解海洋的重要工具之一,已承担了科学探索、工业工程及军事任务等许多方面的作业。值得注意的是,由于海洋环境的复杂性和不可预测性,无人海洋航行器的推进器有极大的可能性发生故障。故障一旦发生将会造成部件本身损坏,严重的则导致环
学位
随着人们对海洋的不断探索,水下目标检测与识别技术的研究越来越受重视。以水下机器人为载体的水下目标识别系统,以其良好的便携性和水下探测的灵活性,成为了水下目标检测与识别的关键技术平台。在水下环境中,机器人主要通过声呐和水下摄像头构成的视觉系统进行水下目标的检测。相对于光学图像,声呐图像成像距离远、穿透性强,能够实现远距离目标的搜索与检测,在水下目标检测、水下搜救,海底地形探测等都有广泛的应用。然而,
学位
水下声呐图像分割是海洋战略中最具有挑战性的研究方向之一。由于水下声呐图像中存在大量非目标、阴影以及噪声的影响,水下声呐图像质量普遍较低,导致水下声呐图像的分割准确率低,因此水下声呐图像相较于光学图像需要特殊的处理方式。水下声呐图像的处理过程一般分为预处理、分割、特征提取和分类四个步骤。准确地分割出图像中的目标区域是图像处理的关键步骤,也是后续目标识别的必要过程。目前在水下声呐图像分割上,传统的分割
学位
永磁同步电机因具有高效率、运行可靠、体积较小、重量较轻等众多优点,在工业控制、高档数控机床和无人水面艇等领域成为首选电机之一。然而,永磁同步电机是一个强耦合、多变量的非线性系统,传统PID控制存在诸多不足,已经不能满足高性能控制的要求。因此,将先进的控制方法运用到永磁同步电机控制系统中,对进一步提高控制系统的性能具有重要的意义。本文以自抗扰控制理论为基础,对永磁同步电机的动静态性能和抗扰动能力进行
学位
大都市区(圈)是全球城市化的核心区域,也是航空市场需求的集聚地。纽约大都市区数量庞大的机场体系由国家机场体系及其他机场共同组成,非国家机场体系机场在数量上占据主导地位。长时间尺度的航空市场结构分析发现,货运市场集聚程度最高,其次为客运市场;区内通用航空市场较为发达,致使飞行市场集中度较低,但国家机场体系在运输航空中发挥关键作用。基于市场腹地客流联系分析发现,主要机场的客流联系市场集中度较高,前三位
期刊