论文部分内容阅读
三维手部姿态估计是一个非常热门的多学科交叉研究方向,涉及到机器人、虚拟现实、计算机视觉、人-机器人交互等领域。基于视觉的手部姿态估计方法具有非接触性、低成本、便携性等优点,有着广阔的应用前景。由于人类手部的高自由度、部件相似、尺度变化、遮挡、残缺以及传感器带来的运动模糊、图像噪声等问题,使得三维手部姿态估计任务仍然具有很大的挑战性。随着深度传感器、卷积神经网络、图形处理器的快速发展,采用深度图像有效地估计手部的三维姿态成为可能。本文以基于深度图像的三维手部姿态估计为研究背景,针对目前存在的问题与困难,围绕图像获取硬件平台、姿态估计算法和系统应用等方面开展理论和实验研究,具有重要的理论与现实意义。针对手部姿态估计存在的运动模糊问题和图像噪声问题,设计并实现了面向三维手部姿态估计的图像获取系统,用于快速获取包含手部的深度图像。相比于彩色相机,深度传感器以固有的能够获取深度数据的优越性,可以为三维手部姿态估计任务提供深度方向的信息。为了应对手部快速运动引起的手部成像模糊问题,设计并实现了一款基于片上系统的时间飞行深度传感器,传感器配置、图像获取、解码、存储、计算、传输均在可并行计算的芯片上完成,能够达到高帧率的深度图像获取速度。通过与现有深度图像获取平台相比,该图像获取系统具有结构紧凑、功耗低、噪声小、帧率高的特点。针对手部姿态估计存在的高自由度问题和部件相似问题,提出了能够更好利用手部形态学拓扑结构的先验信息的HMTNet网络。手部关节点的运动范围与关节点到根部的距离有关,而同根手指上远端关节点依赖近端的关节点,因而手部关节点的运动有着很强的关联性。通过对手部手指的运动学分析,设计了手部形态学拓扑结构网络来模拟手指的这种依赖关系。不仅用五条分支树状网络分别对应五根手指,而且根据卷积特征前后产生关系模拟每根手指不同关节运动学关系。此外,特征提取模块还拼接了低维度和高维度特征以提取更加丰富的初始特征。实验表明,该方法可以获得较小的手部姿态预测误差和较高的实时运行帧率。针对手部姿态估计存在的自遮挡问题和残缺问题,提出了能够更好获取点云局部邻域信息特征的MVPoint Net网络。通过加入点对之间包括点坐标、边向量、模长、角度的中心点与周围邻域信息获取更加丰富的点对特征。将不同视角获取的手部点云,分别送入到上述的点云特征提取模块以及多层感知机,得到更加强壮的融合特征,提高网络应对手部视角变换导致姿态变化的鲁棒性。实验表明,该方法在三维物体分类数据集以及基于点云的三维手部姿态估计任务数据集上均取得了最优的效果。针对手部与物体交互引起的物体遮挡问题和尺度问题,提出了能够自动分配手部区域更大权重而剔除遮挡物体以及背景的MSRAHand Net网络。通过迭代裁剪算法定位手部区域的中心位置,从而将手部更好的从深度图像中分割出来。在回归网络部分加入了注意力机制让网络自动给手部区域分配更大的注意力权重,提高回归网络针对迭代裁剪算法裁剪手部得出关节点坐标的能力。注意力机制模块联合使用了残差级联以及多尺度技术,进一步提高姿态估计回归网络的性能。实验表明,该方法在与物体交互过程中的手部姿态估计相关数据集上取得了最优的效果。最后,在上述设计的图像获取系统以及三维手部姿态估计算法的基础上,搭建了一套实时三维手部姿态估计系统,并且完成了遥操作机械手抓取物体的实验。整个实验流程包括基于片上系统的时间飞行深度相机的深度图像采集、深度图像的高速传输、基于三维手部姿态估计算法的实时手部关节点三维坐标获取以及基于映射算法的灵巧手物体抓取。为了更好的完成遥操作物体抓取实验任务,自制针对物体抓取的手部姿态数据集并验证姿态估计效果。为了应对不同形状特征的物体抓取,分别设计了五指、三指、二指的抓取实验,均能较好的完成物体抓取,验证了三维手部姿态估计系统在真实场景的实用性。