论文部分内容阅读
基于视频的人体检测、跟踪和三维重建是指从包含人体运动的视频中检测到人体并提取出人体的骨骼关键点,然后利用这些信息构建出与视频中人体姿态和形状相似的三维人体模型。该技术在游戏制作、影视广告、虚拟现实等方面有广泛的应用。目前,三维人体模型姿态获取的主要途径是借助大型三维扫描仪器,或穿戴设备捕捉等方法。这些方法虽然建模精度高,但是需要人体长时间地站在设备前,不可以任意运动,或者穿戴沉重的设备从而影响运动的真实性,而且获取代价高。为了克服传统人体建模方法的缺点,本文重点研究基于视频的和卷积神经网络的人体检测跟踪,然后提取检测到人体的骨骼关键点信息,将该信息应用到人体的三维重建中。首先,本文研究MobileNet网络,该网络将传统的卷积层变为深度可分离式卷积。MobileNet网络在仅降低非常小的预测精度的情况下,极大提升前向运算速度且减少模型参数。本文以MobileNet网络为基础,通过应用空洞卷积,扩大其感受野,在保证参数量不变的前提下,提高网络学习精度。其次,本文研究OpenPose算法,该算法通过卷积网络实现人体的关键点定位,是一个基于多人骨骼关键点的实时识别和跟踪的算法。本文重构OpenPose网络架构,用MobileNet网络的深度可分离式卷积代替原有的VGG网络,将原有OpenPose并列网络层共享,用具有1×1和两个3×3的卷积核的连续卷积块替换单一的7×7的卷积核,从而在不减少精度的前提下,减少计算量。最后,本文研究SMPL模型,该模型是一种基于蒙皮顶点的,数据驱动的参数化模型。本文通过卡尔曼滤波器修正OpenPose获取的二维骨骼关键点坐标。将修正后的骨骼关键点坐标与SMPL模型的三维关键点一一对应。判断身体如果旋转,计算侧面视角下的人体方向。然后分别计算原有方向和侧面方向下三维关键点坐标到二维关键点坐标的投影与获取的骨骼关键点坐标之间的距离,选取相对距离小的方向作为图像中目标的三维方向。相对于借助其他设备获取三维模型,本文提出的方法可以应用到普通视频中。本文将提出的优化MobileNet网络方法与标准MobileNet网络,优化OpenPose网络结构的方法与原有OpenPose方法,以及更改身体方向判断的SMPL模型与原有SMPL模型三方面做了对比,实验结果表明,本文方法在人体检测、跟踪和三维重建方面均有所提升。