基于深度强化学习的机械臂抓捕控制研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chinamax
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在轨抓捕技术是世界各航天大国研究的热门领域。我国空间站即将建成,对空间机械臂的应用也具有很大需求。深度强化学习(Deep Reinforcement Learning,DRL)近年来发展迅速,能够在无数学模型的情况下实现高维原始输入到输出的端到端的控制策略。本文以智能机器人和对空间飞行目标进行捕获追踪为应用背景,开展了神经网络激活函数的选择、近端策略优化算法(Proximal Policy Optimization,PPO)及其改进措施、基于比例导引法的机械臂动目标抓捕轨迹规划、多自由度机械臂和多场景任务下的深度强化学习抓捕训练等方面进行了研究,以期对我国空间机器人实现高度智能化捕捉飞行目标提供参考。针对深度神经网络的激活函数梯度消失问题,基于不同激活函数曲线及其导函数曲线,对激活函数特征及选择方法进行分析,以此作为研究深度强化学习中策略与值函数拟合的基础。深度强化学习算法是生成策略的核心。本文研究了深度强化学习过程及原理,基于策略与值函数两要素,推导近端策略优化算法的目标函数。针对方差与偏差的平衡问题,提出结合使用泛化优势估计的近端策略优化算法的改进措施。通过仿真获得了合理的置信区间参数,设计了置信区间的衰减方案,验证了改进措施能够有效提升算法性能。针对传统的机械臂抓捕运动目标算法,根据比例导引法的制导原理,进行二维平面的规划推导,并推广到三维空间运动目标的捕获。本文设计了动目标捕获的轨迹规划方法,研究导引系数和抓捕速度对抓捕轨迹、抓捕时间等的影响,分析关节角度、关节角速度的时间变化曲线的特点。通过六自由度机械臂仿真,验证了基于比例导引的规划算法在抓捕运动目标上的有效性。针对PPO算法在机械臂动目标抓捕中的应用,搭建DRL仿真环境,并建立抓捕任务的DRL模型,针对性地搭建DRL模型的仿真控制器。基于回合终止条件和交互过程奖赏,以分段函数的方式设计奖赏值,探究根据不同时刻任务紧迫性差异,区别不同时刻奖赏权值的方法。根据抓捕任务以及DRL环境特点,设计不同场景下状态与动作空间、奖赏函数以及策略和值函数神经网络结构。通过仿真实验,证实了PPO算法在机械臂抓捕运动目标上具有可行性。为对比例导引规划算法与深度强化学习算法,针对性地进行对比任务设计。针对抓捕轨迹、关节角度和角速度变化等,对两种方法的优势与不足进行了探讨。
其他文献
改革开放40年来,我国经济以举世瞩目的中国速度取得了快速发展,伴随着经济的快速发展,环境问题也日益突显,环境污染已经成为影响人民群众生产生活以及幸福感的一大问题。党的
Fama的有效市场假说(EMH)是现代金融理论的基础,包括CAPM以及期权定价等一系列重要的金融模型均是建立在市场有效的前提下。然而有效市场理论的一系列过于严苛的假设条件一直
甾体药物是仅次于抗生素的第二大类药物,用途广泛。雄甾-4-烯-3,17-二酮(AD)和雄甾-1,4-二烯-3,17-二酮(ADD)属于17-酮类固醇家族,是用来生产甾体药物的关键中间体。AD和ADD
MXenes作为一类的新型二维纳米材料,由于具有高比表面积,良好的导电和亲水性能,MXene在储能、功能增强材料、电子器件等多个方面受到越来越多的关注,作为MXene系列中经过充分研究的成员之一,Ti_2CO_2作为较早制备且研究较多的MXene,通过对相应的羟基官能化的Ti_2C(OH)_2进行高温处理而实现,已被证明具有超高载流子迁移率的半导体,可作为电子器件的候选材料。基于目前对柔性电子器件
溶血磷脂(LPLs)作为一种生物活性信号分子,在细胞内各种生命活动中发挥着重要作用。以往研究表明,生物体内LPLs与多种疾病的发生、发展密切相关,并可作为相关疾病潜在的生物
流感的爆发给社会的经济发展带来重大损失的同时给人们的生命安全造成严重的威胁。现阶段接种流感疫苗是预防流感的最有效手段。目前流感疫苗生产工艺以鸡胚培养工艺为主,该
本文合成了五倍子单宁/圆盘状硅藻土复合材料和五倍子单宁/树枝状纤维形介孔二氧化硅复合材料,通过表征测试了复合材料的性能,并探究了两种吸附剂的吸附机理,结果如下:五倍子
随着城市经济的飞速发展,交通拥堵的问题也日益严重,在机动化水平持续提高的背景下,公交出行分担率却呈现逐年下降的态势。交通压力的日益增大,使得城市居民的通勤时间也在逐
等规聚丙烯(PP)应用广泛,具有优良的机械性能和加工性能,但冲击性能较差限制了其应用。钛酸盐晶须和多壁碳纳米管因有优异的力学及多功能性,是复合材料的优选增强增韧剂。本论
通过电解水的方法制备高纯度氢气是目前获得清洁可再生能源的有效途径之一。IrO2、Ru O2和Pt等铂族贵金属材料具备优良的电催化分解水活性,但是高昂的价格和稀有的储量很大程度阻碍了这些电催化材料的大规模工业化应用。因此,拥有丰富电子轨道和多变价态的过渡金属材料成为当前电催化领域的研究热点,其纳米化材料如氧化(氢氧化)物、硫化物、磷化物及合金材料等均表现出色的催化析氧(OER)、析氢(HER)甚至全