基于粒子群优化和元强化学习的机器人运动控制方法

来源 :扬州大学 | 被引量 : 0次 | 上传用户:yzymd_223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人运动控制是指在复杂环境下,将预先设定的控制规划指令转换成所需的机械运动,从而实现对机械运动的精确控制,如对位置、速度、扭矩、加速度等的控制。近年来,人工智能在机器人运动控制领域发展迅猛,深度强化学习(Deep Reinforcement Learning,DRL)作为人工智能的一个重要分支,也得到了极大的应用。如何将DRL应用到机器人运动控制问题中,是近几年的研究热点。在DRL中,agent试图学习在一个环境中执行一系列动作,使累积奖励最大。但单纯的累积奖励优化而没有一些鼓励智能探索的机制,可能会使得agent无法正确的学习;对于稀疏的奖励信号问题,可能没有奖励梯度可循;并且DRL方法对其超参数的选择比较敏感,通常具有脆弱的收敛性;此外,DRL在训练过程中容易对环境过度拟合。针对以上问题,本文的主要研究内容包括以下几个方面:(1)由于DRL算法难以处理稀疏奖励问题,存在缺乏有效的探索以及对超参数的选择比较敏感的脆弱收敛性的问题,使其难以应用于大规模实际问题。粒子群优化算法(Particle Swarm Optimization,PSO)是一种进化计算方法,它的主要思想是通过种群中个体之间的相互合作和交换信息来寻找最优解决方案。本文结合PSO和DRL算法,DRL通过PSO种群提供的多种数据来训练种群中累积奖励最低的几个策略,并且每次都将训练后累积奖励得到提升的策略插入PSO种群,增强DRL与PSO之间的信息交流,该算法称为PSO-RL,能够提升DRL算法的性能和稳定性。在一系列具有挑战性的连续控制任务中进行的实验表明,PSO-RL不仅优于传统的深度强化学习算法,而且优于结合进化算法(Evolutionary Algorithm,EA)和DRL的进化强化学习(ERL)。(2)在深度强化学习中,智能体每次都需要从头训练策略参数,需要通过与环境交互,产生大量的样本来训练神经网络,因此需要花费大量的训练时间。为了解决这个问题,本文提出了一个改进的元学习算法,把改进的粒子群优化算法嵌入元学习算法MAML中,该算法称为PSO-MAML,它不仅能够自适应地学习策略网络参数,还自适应地学习粒子群优化的惯性权值。MAML算法是训练模型的初始化参数,然后经过几次微调就能快速适应新的任务,不过它在训练过程中存在探索速度慢和求解二阶导数困难的问题。本文提出的改进元学习算法PSO-MAML具有基于种群的多样化探索,能够提升算法的泛化性,同时避免了计算二阶梯度,可以更有效地学习。仿真实验结果表明,该算法的性能和训练时长都优于基于进化策略的MAML改进算法——ES-MAML,证明了该算法具有更有效的探索性,而且泛化性能更好。(3)以通用的环境模拟器PyBullet作为开发环境,研究基于以上两种改进算法在机械臂自主操作抓取物体环境中的有效性。由于PyBullet模拟器相比其他模拟器在深度强化学习环境中更具优越性,因此本文使用PyBullet中KUKA机械臂抓取物体训练进行模拟测试。通过将环境的状态作为神经网络的输入,机械臂根据神经网络输出的各种动作的概率大小选择动作,并获得立即奖励,然后机械臂通过算法学习改进策略,对以上两种改进算法的有效性进行了验证。在同一环境中,与传统的深度强化学习算法相比,本文提出的算法更适合应用于该环境,它们具有较高的成功率,而且随着迭代回合的增加,机械臂花费的步数越来越少。
其他文献
随着我国生产制造智能化改造升级的需求日益凸显,机械臂的使用也从传统的工业领域渐渐扩展到了军事、航天、餐饮和教育等各个领域。这也带来了更加复杂的应用场景和更大的作业难度,人们对更加灵活和高性能的冗余机械臂的需求也越来越大,对其展开相应的研究是有一定的理论意义和实践意义的。本文以七自由度冗余机械臂为研究对象,对其进行多目标轨迹规划以及双臂协作规划的相关研究,具体研究内容和成果如下:(1)先使用改进的D
以休闲农业与乡村旅游示范县的设立作为准自然实验,选取我国西部地区247个脱贫县2010—2019年的宏观数据为研究样本,采用PSM—DID模型和三重差分模型探究农旅融合发展为西部脱贫地区农民带来的增收效应及区域异质性,并构建中介效应模型分析农旅融合发展带动农民增收的作用机制。结果表明:(1)农旅融合发展能有效带动西部脱贫地区农民增收,设立休闲农业与乡村旅游示范县的增收幅度达到12%。(2)农旅融合
随着“一带一路”倡议的顺利实施以及后续推进,中国对沿线国家的直接投资额不断增加。东盟是“一带一路”沿线最重要的区域之一,其良好的地理位置、潜力较大的市场规模等条件吸引了中国对沿线地区一半以上的投资量,因而研究中国对东盟OFDI的影响因素十分必要。本文通过搜集整理国内外文献,并利用相关数据和理论,分析了中国对东盟直接投资的现状,以2003——2020年数据为样本,采用面板固定效应模型进行实证分析。此
冗余机械臂逆运动学问题一直是研究热点。冗余机械臂比六自由度机械臂更加灵活。但由于冗余机械臂逆运动学解具有无穷组,且求逆运动解也十分困难,因此,冗余机械臂逆运动学非常具有研究意义。机械臂逆运动学是轨迹规划的基础,轨迹规划是机械臂平稳运行的先决条件,为提高机械臂工作效率,轨迹规划成为研究热点。本文主要以七自由度冗余机械臂为研究对象,基于改进麻雀搜索算法对冗余机械臂进行逆运动学求解以及轨迹规划研究,建立
随着时代的迅速发展,人们的环保意识越来越强,全社会越发注重绿色节能环保问题,这为我国的可持续发展战略创造了有利条件。特别是我国的建筑行业,改革开放以来步入发展的黄金时期,前景一片大好。现阶段,国内建筑行业尚未全面普及绿色施工理念,绿色管理制度还有许多问题需要弥补。基于此,本文尝试探讨绿色施工理念下的建筑工程模式创新的相关内容,同时提出了一些有针对性的解决措施,仅供参考。
乡村旅游可以满足想要亲近大自然、感受乡村农家田园景色的人群,使他们的身心得到放松,同时有利于城市与乡村相互沟通交流、加快乡村经济发展、提升当地农民经济收入、推进乡村振兴。因此,研究乡村旅游的发展具有十分重要的意义。世界经济均因为新冠肺炎疫情而受到了不同程度影响,由于旅游业属于非刚需的消费型产业,遭受的打击更为严重。后疫情时代,旅游业需要调整和恢复,乡村旅游具有聚集性低、生态环保、健康天然的特点,将
目的 探讨胫后动脉穿支螺旋桨皮瓣修复足踝部皮肤软组织缺损的临床疗效。方法 回顾性分析自2014-01—2020-04采用胫后动脉穿支螺旋桨皮瓣修复的30例足踝部皮肤软组织缺损,以胫后动脉体表投影为轴线设计皮瓣,创面近端至旋转点为小桨,创面远端至旋转点距离增加1.0 cm为大桨,大桨宽度较创面增加0.5~1.0 cm。术中切开皮瓣前缘寻找穿支血管,以寻得的穿支为蒂重新设计皮瓣,游离皮瓣仅保留穿支血管
稀土是推动国民经济高质量发展和全球经济结构调整的战略性关键金属矿产资源,“一带一路”倡议为沿线各国稀土贸易提供了重大机遇。基于2013—2019年“一带一路”稀土相关产品的贸易数据,采用复杂网络分析方法,从个体和整体2个层面探究了“一带一路”稀土贸易网络结构特征及其演化过程。研究表明:(1)2013—2019年“一带一路”稀土贸易网络呈现“小世界”特征,但整体网络的通达性较弱;(2)中国是“一带一
窃电不仅影响到用户和电力企业的经济效益,而且还影响到电网的正常运行和优质服务。为解决本难题,通过分析一种电能表典型采样电路的工作原理,推导窃电状态下的电量计算公式以及核算差错电量的方法,完成电能表基本误差试验,并且比对累计电能量,获得理论数据和实验验证数据相一致的结果,据此可以准确、快速地核算差错电量。
本论文针对核应急处置救援需求,开展锯切机器人研究,主要包括锯切机器人系统设计、锯切混联机器人运动学分析、车载刀具库及自动换刀控制、机器人锯切作业技术及试验等研究内容。全文取得如下成果:构建锯切机器人系统总体方案,对六自由度高刚度混联机械臂进行刚度分析与仿真,设计了适用于辐照应用场景的气动主轴的末端锯切作业机构,开展了末端执行机构接口设计,提出了适用于现场移动锯切作业的微量润滑刀具冷却方案。对锯切混