基于深度强化学习的机械臂视觉抓取控制

来源 :宁波大学 | 被引量 : 0次 | 上传用户:zwj_10061
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机械臂广泛应用于工业生产和社会生活的各个领域,传统的机械臂控制方法依赖于精准的环境模型,难以适应复杂的、未知的非结构化环境。近年来,随着人工智能技术的发展,结合深度强化学习的机器人控制技术有了长足的进步。深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)算法作为深度强化学习的经典算法,适用于连续控制问题,广泛应用于机械臂控制研究,但由于DDPG算法存在学习效率低、样本利用率低以及对奖励函数敏感等问题,难以在短时间内获取较好的策略。针对这一问题,本文以机械臂视觉抓取控制任务为应用背景,研究基于DDPG算法的改进算法,以减少机械臂与环境的交互次数,提升策略模型的学习效率和策略水平。具体的研究内容如下:在UR5机械臂仿真平台上,以观测图像和机械臂关节角度信息作为状态,机械臂关节转动量作为动作输出,研究了基于DDPG的机械臂抓取控制方法,在此基础上还研究了经验回放机制对DDPG算法学习效率的影响,针对经验池数据利用效率低问题,使用了分类经验回放机制进行改进。实验结果表明,使用分类经验回放机制能够显著提高DDPG算法在机械臂抓取控制中的效果。针对深度强化学习算法在训练初期智能体难以获取奖励这一问题,论文将多目标学习方法引入到机械臂抓取控制问题中,提出了结合多目标学习DDPG的机械臂视觉抓取控制方法。该方法在分类经验回放DDPG算法的基础上,在每集的最后一步,使用虚拟目标代替原始目标,使机械臂在每集结束后均能获得高奖励。实验结果验证了方法的有效性。针对深度强化学习算法在训练初期收敛速度慢,容易陷入局部最优无法收敛到最优策略的问题,论文将模仿学习方法引入到DDPG算法中,针对机械臂视觉抓取问题,结合专家数据,提出了基于预训练策略模型的DDPG算法和经验池引入专家数据的DDPG算法。基于预训练策略模型的DDPG算法通过专家数据预训练策略模型,为DDPG算法提供合理的初始策略以加快模型收敛。经验池引入专家数据的DDPG算法在模型训练前通过向经验池中添加专家示教数据方式以引导模型往更优策略收敛。仿真实验结果表明,两种方式均有效提升了模型学习效率,且基于预训练策略模型的DDPG算法更优。
其他文献
与传统的有线输电方式相比,无线功率传输(Wireless Power Transfer,WPT)避免了线缆长时间使用老化、设备接口频繁拔插放电、植入式医疗设备充电麻烦等问题,使系统更加的安全便捷,已广泛应用于手机、电动汽车、可植入式医疗设备等领域。但在实际应用过程中,收发线圈偏移现象时有发生,这会降低系统的传输效率和稳定性。因此本文将重点研究磁耦合谐振式WPT系统的线圈偏移问题,提出抗偏移的技术方
学位
国家明确"建立高校分类体系,实行分类管理",鉴于高等学校的培养目标不同,对教学方法和教师的要求也不同,如何促进更多"应用型"教师专业发展成为学校面临的显性问题。本文以华南理工大学广州学院为例,结合本校的教学实践,提出通过构建"应用型"经管教师专业成长平台,促进教师的专业成长。
期刊
随着传统互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)的特征尺寸逐渐达到物理极限,以CMOS工艺为主导的集成电路发展遇到了瓶颈,于是越来越多的纳米技术开始涌现出来,其中量子元胞自动机(Quantum-dot Cellular Automata,QCA)因为其具有超低功耗、较高的运行速度以及较低的延迟成为了CMOS工艺的热门替代品之一
学位
我国是世界上人口最多的沿海国家,国家政策指出:发展海洋经济、海洋科技是推动我们强国战略的很重要的一个方面,一定要向海洋进军,加快建设海洋强国。建设“智慧海洋”战略逐渐走进我们的视野中,海洋基本参数的精细化采集与测量对海洋生物的生长繁殖、海洋环境的保护以及国家军事防御都有不可忽视的意义。海洋盐度是海洋水文测量的要素之一,精确测量海洋盐度也一直是研究的热点,在78实用盐标发布之后,利用电导率可以标定得
学位
介质阻挡放电离子源(DBDI)凭借其结构简单,高效稳定,功耗低等特点,成为近年来国内外学者的研究热点。本课题拟基于介质阻挡放电原理,开发应用于气态样品快速检测分析的质谱离子源-空心电极不锈钢毛细管等离子体电离源(HECPI),构建新型气态样品检测离子源质谱法(HECPI-MS),重点拓展该方法在大气环境监测工作中针对污染源成分快速定性、定量中的应用研究,满足现阶段大气环境污染源现场快速检测的需求。
学位
基于耦合谐振的无线能量传输技术作为无线能量传输一种重要的方式,己经广泛地应用于家用电器、植入式医疗设备、电动汽车、可穿戴设备等众多领域。在实际的工业应用中,收发两端不仅需要能量传输,也需要数据同步传输。目前主流的能量与数据同步方式有两种。一是双链路同步传输技术,即在能量传输链路之外,增加额外的数据传输链路;这种方式容易造成设备冗杂,灵活性与可靠性降低,同时增加了成本。二是共享链路同步传输技术,即利
学位
化学是一门重视实践的学科,而化学实验是高校化学教学的重要组成部分,化学药品的安全有序管理是化学实验得以顺利进行的保障。随着化工行业的发展和高校教育人群的增加,实验室中化学药品使用量逐年增多,而且实验室存放的化学药品种类繁多、性质复杂,传统的管理方式一方面难以满足师生日常使用需求,另一方面缺乏安全管理条件。论文针对高校实验室化学药品管理需求,设计一种新的化学药品管理系统,系统采用了RFID、指静脉识
学位
目前,光伏发电作为一种主要的绿色能源利用方式,已经被日益广泛使用。但光伏发电的使用也对用户和电网造成了不利影响。光伏大规模并网会导致电网中传统发电方式所占比例降低,因此当发生紧急情况时,电网的应对能力较差。光伏发电的波动性还会影响母线的功率平衡,造成电能质量的下降。因此,精确的光伏预测对光伏电站与电网的安全稳定运行十分重要。此外,对用户和电网而言,在对光伏发电功率进行精确预测时,若能够结合储能设备
学位
随着集成电路的发展,芯片越来越接近工艺制造的极限,面对大数据量传输的需求的增加,以光为传输载体的光互连技术开始崭露头角,因其具有高速传输速率以及抗电磁干扰等优良特性,可突破电互连在带宽、功耗等方面的瓶颈。光逻辑器件是光互连中实现高速、大容量光信号处理的基础元件。其中,可逆逻辑器件因将输入与输出一一对应,能解决不可逆逻辑中因信号位丢失而引起的散热问题而备受关注。硅基光子技术可兼容现有互补金属氧化物半
学位
温度是生物研究中重要的指标,准确监测细胞在自然代谢过程中或药物刺激情况下的温度波动具有重要意义,能够为更深入的研究细胞在不同状态时的能量产生和扩散提供有意义的信息,对癌症和其他疾病的研究有一定帮助。采用荧光聚合物和热电偶探针等方法进行细胞温度测量存在测量精度低、细胞状态被干扰的局限性。本文研制的微芯片可用于监测微环境下的细胞温度波动,该微芯片由具有捕获功能的细胞培养结构和用于监测细胞温度波动的高精
学位