论文部分内容阅读
放射性废物分拣作业通常面临非结构化、局部放射性的复杂工作环境,随着机器人控制技术的提高和发展,人工分拣方式逐渐被取代,遥操作核机器人进行分拣任务的方式成为主流。但目前遥操作分拣作业存在分拣效率低、操作难度大、人员培训周期长以及自主控制能力差等典型问题。针对上述问题,本文以提升机器人非结构化环境中适应性和自主作业能力为目标,基于深度强化学习对核机器人分拣作业方法进行深入研究。首先,本课题对核机器人分拣作业任务的特点进行深度剖析,设计由环境感知、数据训练与运动控制三个部分共同组成的核机器人分拣作业系统框架,并对视觉系统与机器人之间的部署方式进行讨论和选择。同时,对系统中的机器人进行运动学和逆运动学分析,结合相机标定原理构建手眼标定模型得到图像信息与机器人控制之间的转换关系。然后,提出基于深度强化学习的FR-DDQN核机器人分拣作业方法。该方法对传统深度Q学习算法进行优化,使用基于双深度Q学习及经验优先级采样的算法框架,提升了算法的训练效率与稳定性。另外,基于马尔科夫决策过程对分拣作业数学模型进行设计与构建,设定图像输入的状态空间与机械臂的动作空间,使用全卷积神经网络的值函数,对输入图像信息中每个像素点进行评价输出。设计有效的回报函数并在放射性区域加入额外的性能指标,达到优先分拣具有高放射性活度废物的目的。此外,该分拣方法对机械臂抓取操作和推动操作分别进行训练,采用协同配合的分拣方式,提高了分拣效率,解决了废物之间相互影响的问题。最后,通过设置多组仿真和实物实验对分拣方法进行验证,完成多类型放射性固体废物分拣的训练与测试,并对提出方法的性能进行评估。实验结果表明,机械臂能够自主完成复杂条件下的分拣任务,使用推动和抓取协同作业的方法可以明显提高工作效率,并会优先抓取放射性区域内具有高放射性活度的物体,且不会受到废物堆叠的影响。另外,实物试验验证了该算法具有迁移能力和良好的泛化性。