基于深度强化学习的机械臂视觉伺服抓取

来源 :浙江大学 | 被引量 : 0次 | 上传用户:pangjunli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机械臂抓取静态或动态物体是智能工厂流水线上的常见工序,可以取代人工提升生产效率,视觉伺服可以根据实时图像反馈控制机械臂跟踪抓取目标物体,而以图像雅可比矩阵方法为代表的传统图像视觉伺服高度依赖特征点的稳定匹配,鲁棒性弱且难以应对目标物脱离视野的情况。本文将深度强化学习算法与视觉伺服相结合,提出了基于深度Q网络(DQN)及深度确定性策略梯度法(DDPG)的通用化视觉伺服方法,训练深度神经网络根据手眼图像输出机械臂动作,跟踪并抓取目标物体,并提出优化方法解决了原算法中网络训练效率低、收敛性差的问题,在仿真与实际系统中验证了效果。本文的具体研究工作如下:(1)面向笛卡尔空间位置控制的视觉伺服,提出了通用化的基于改进DQN算法的DQN-PBVS和DQN-IBVS方法,分别可训练神经网络根据位置反馈、手眼图像反馈输出机械臂末端在笛卡尔空间中的位姿动作,跟踪抓取目标物体。针对一般DQN网络训练中采用状态评价式奖励函数和单经验池造成容易陷入局部极值、训练效率低及收敛性弱的问题,提出了结合双经验池的势能差分式奖励函数构造法,能有效避免策略陷入局部极值,提高优良样本利用率,经数据对比验证提高了DQN网络训练效率与收敛性。为验证上述方法,针对具体任务自主设计了神经网络结构和训练策略,于仿真中进行训练,并验证可跟踪抓取静态或动态的目标物体,能够在目标部分脱离视野的情况下稳定跟踪,具有良好的抗扰动性能和动态跟踪性能。(2)面向速度控制的视觉伺服,提出了通用化的基于改进DDPG算法的笛卡尔空间DDPG-IBVS方法和关节空间DDPG-IBVS方法,前者可训练神经网络根据手眼图像反馈输出笛卡尔空间实时速度,后者训练的网络可实现无模型端到端地根据手眼图像实时控制六关节速度,跟踪抓取目标物体。针对一般DDPG方法中同时训练两个深度网络造成的学习效率低、收敛性差的问题,除了采用结合双经验池的势能差分式奖励函数构造法之外,还提出了异构状态的Critic网络优化设计方法,使Critic网络更高效地辅助Actor网络的训练,经实验验证,进一步提高了DDPG网络的训练效率和收敛性。为验证上述方法,针对具体任务自主设计了分支深度神经网络结构和训练策略,在仿真和实际机械臂抓取系统均验证了其跟踪抓取的抗干扰性能和动态跟踪性能。
其他文献
水是人类生存不可或缺的资源,正确、有效地管理和利用水资源对经济发展有着重要的作用。在掌握水情、调配水量以及灾害防范中,河道流速和流量是十分重要的数据。传统测速方法使用旋桨式测速仪、声学多普勒测速仪、雷达波测速仪等仪器进行测量,虽然具有测量精度高的优点,但是成本高、实时性不够、检测范围窄,难以满足大规模系统部署的需要。随着计算机视觉技术的进步和成本的降低,采用视频图像进行流速检测成为一种可能。在图像
学位
近年来,随着人们生活水平的提高以及饮食习惯的改变,结直肠癌发病率呈增长趋势。由于结直肠癌具有异质性,不同的发展机制和发展阶段都会表现出不同的临床进程,进而影响患者的预后。为此,临床上通过将结直肠癌划分为不同的分子亚型并预测患者生存时间,制定合理的治疗方案,以促进个体化精准治疗。多组学主要包括基因组学、蛋白组学等,反映了癌症发展过程中的生物过程和分子机制,对于患者的病理评估以及治疗方案的制定有着重要
学位
计算机三维视觉问题是计算机视觉领域的基本问题。其旨在使用2D图像恢复出原始场景3D信息,通过相机图像信息实现相机位姿获取、场景深度估计、排列生成三维场景等一系列任务。位姿估计、稠密深度估计以及计算机算力在近年来的飞速发展使得稠密三维重建工作并不再局限于传统的离线情况。因此,本文做出尝试,将视觉-贯导实时定位与建图(Visual-Inertial Simultaneous localization
学位
随着医院现代化建设的快速发展,医院对高效的自动化物流系统的需求越来越突出。医院轨道物流系统(Medical Track Vehicle System,MTVS)以其运输稳定、承载量大、故障率低、兼容性强等优点,现已成为许多医院的首选。任务调度是MTVS运行过程的核心任务,当前的调度策略主要是人工调度,这也就导致了系统运行过程中存在的运输效率较低、轨道小车(Track Vehicle,TV)拥堵等问
学位
仿人机器人是当下机器人领域的研究热点之一。仿人机器人由于自由度多、机械结构复杂、非线性特性强等问题,使得现有仿人机器人在如何实现不平整路面下的快速稳定行走仍然存在较大挑战。本文针对仿人机器人的不平整路面行走开展研究,设计了两种基于力控框架的步行运动控制算法。一种是基于解耦控制和虚拟模型的方法,设计了姿态控制器、高度控制器和速度控制器并引入了脚踝辅助控制;另一种就是基于模型预测控制和全身控制的方法,
学位
立体匹配是一种重要的获取深度信息的技术,相比雷达等造价昂贵的设备,立体匹配技术所需设备成本低,算法精度高,故被广泛应用于工业界。随着近年来卷积神经网络(CNN)在计算机视觉中的飞速发展,端到端的立体匹配方法得到了广泛关注。相比传统方法,它的处理流程更加简洁,视差估计的准确性也得到了进一步的提升。然而,现有的基于CNN的高精度立体匹配方法往往具有很大的时间开销和参数量,这对内存受限的移动设备并不友好
学位
右心室双出口(Double outlet right ventricle,DORV)是一种复杂的紫绀型先天性心脏病,其主要表现为主动脉和肺动脉完全或大部分起源于右心室,室间隔缺损(Ventricular septal defect,VSD)是左心室唯一的出口。其主要的治疗方法是DORV矫治术,即使用牛心包补片建立VSD至主动脉瓣口的心室内隧道(Intraventricular tunnel,IVT
学位
污泥膨胀问题一直是国内外污水处理厂的难题之一,尽管已经做了大量相关的研究,但目前仍未找到解决该问题的根本方法。大多数污水处理厂通过改变进水水质,调整运行方式等因素来优化污水处理效果,在实际运行中污水本身的水质特点、季节变化导致的温度变化以及运行中出现的低溶解氧等又极易诱发污泥膨胀的发生,加大了污泥膨胀防控的难度。随着新方法、新技术、新设备的出现,已有大量的研究对污泥膨胀中丝状菌的生理生态学特性做了
学位
近年来随着我国在航天、航空、船舶、汽车等制造领域的高速发展,大型化、轻量化、复杂化的金属构件正受到广泛应用。与传统制造工艺相比,电弧增材制造技术具有生产效率高,加工成本低以及成型性能良好等特点。本课题针对H13热作模具钢电弧增材制造过程中的成形过程与变形问题展开研究,提出路径优化与同步水冷的变形缓解措施,并使用固有应变理论分析变形产生与缓解的机理,为大型结构件变形缓解的工程应用提供理论依据。采用实
学位
无声语音接口通过将语音产生过程中的生理信号转换为语言,为人类提供一种新的交流方式,在医用、军用、民用等方面具有极大的发展前景和潜力。传统的无声语音接口通过肌电或脑电信号实现语音识别或合成,但相关研究还不充分,且单一信号下的性能还有不足之处。本文研究了表面肌电信号和脑电信号的多种融合方式,利用两种信号的独特优势提高无声语音识别性能。本文首先设计了实验方案,采集肌电和脑电信号,并通过预实验筛选出合适的
学位