论文部分内容阅读
随着现代社会的飞速发展,人体运动分析已经引起了诸多领域研究者的浓厚兴趣。人体运动分析的研究目标是使计算机能够基于人体结构、人体运动等先验知识,自动地重建人体运动,并实现对人体行为和身份的语义感知和理解。与传统外观特征相比,三维人体骨架特征对外界光照、视角和衣着变化具有较强的鲁棒性,并且能够从生物学、物理学和人体运动学等方面对人体运动过程进行精确的描述和解释。基于此,本论文工作主要围绕人体运动分析中人体骨架三维估计和身份识别两个重点内容展开。主要研究成果如下:
针对人体三维骨架难以直接获取的问题,提出基于黎曼流形的三维人体姿态估计方法。该方法通过分析人体运动学规律和运动轨迹的几何结构,根据黎曼流形切从结构,建立二阶随机动态模型,将RTSS平滑滤波器推广到黎曼流形,提出Riemannian Extended Rauch Tung Striebel Smoother(RERTSS)对三维骨架姿态进行正向估计并进行反向平滑。并采用局部单纯形优化方法对估计结果进一步优化。该方法能够在缺少训练数据的情况下,准确地估计三维人体姿态,并能够缓解三维重建中普遍存在的二义性问题。
针对欧氏特征无法精确描述人体非线性运动过程的不足,提出基于黎曼流形运动特征提取方法,以实现在非线性空间中对个体差异的准确描述。针对传统度量学习方法难以体现黎曼运动特征时空结构的问题,提出时空大间隔最近邻度量学习方法(Spatio-Temporal Large Margin Nearest Neighbor,简写为ST-LMNN)。该方法将双线性模型和经典度量学习框架结合,通过双线性度量函数测量个体运动特征之间的相似性。针对个体间存在时空结构差异的问题,通过引入最近类均值分类器的思想,提出时空多度量学习(Spatio-Temporal Multi-Metric Learning,简写为STMM)。该方法通过学习时空度量函数使类内样本更趋向于类内几何平均的同时加大类间均值的距离。此外,针对大多数身份识别数据库规模较小且外界和心理协变因素考虑较少的问题,建立了包含多个外界和心理协变因素影响的运动数据库。
针对内在和外界协变因素会对人体运动过程产生结构性影响的问题,提出时空多因素判别分析方法(Spatio-Temporal Multi-Factor Discriminant Analysis,简写为ST-MFDA)。ST-MFDA通过为每种协变因素学习成对的时空投影矩阵,将来自不同协变因素的运动特征投影到同一个公共子空间中,通过广义费舍尔判别准则保证在公共子空间中类内散度小而类间散度大,以缓解多协变因素对身份识别精度的影响。
本文从三维人体姿态估计、时空度量学习以及子空间学习三个主要层面逐步展开,提出了一系列建模方法来解决人体运动分析中的关键子问题。通过理论分析和实验证明了所提出的三维姿态估计方法、时空度量学习方法和时空多因素判别方法在人体分析任务中的可行性、高效性以及相对于传统方法的优越性。
针对人体三维骨架难以直接获取的问题,提出基于黎曼流形的三维人体姿态估计方法。该方法通过分析人体运动学规律和运动轨迹的几何结构,根据黎曼流形切从结构,建立二阶随机动态模型,将RTSS平滑滤波器推广到黎曼流形,提出Riemannian Extended Rauch Tung Striebel Smoother(RERTSS)对三维骨架姿态进行正向估计并进行反向平滑。并采用局部单纯形优化方法对估计结果进一步优化。该方法能够在缺少训练数据的情况下,准确地估计三维人体姿态,并能够缓解三维重建中普遍存在的二义性问题。
针对欧氏特征无法精确描述人体非线性运动过程的不足,提出基于黎曼流形运动特征提取方法,以实现在非线性空间中对个体差异的准确描述。针对传统度量学习方法难以体现黎曼运动特征时空结构的问题,提出时空大间隔最近邻度量学习方法(Spatio-Temporal Large Margin Nearest Neighbor,简写为ST-LMNN)。该方法将双线性模型和经典度量学习框架结合,通过双线性度量函数测量个体运动特征之间的相似性。针对个体间存在时空结构差异的问题,通过引入最近类均值分类器的思想,提出时空多度量学习(Spatio-Temporal Multi-Metric Learning,简写为STMM)。该方法通过学习时空度量函数使类内样本更趋向于类内几何平均的同时加大类间均值的距离。此外,针对大多数身份识别数据库规模较小且外界和心理协变因素考虑较少的问题,建立了包含多个外界和心理协变因素影响的运动数据库。
针对内在和外界协变因素会对人体运动过程产生结构性影响的问题,提出时空多因素判别分析方法(Spatio-Temporal Multi-Factor Discriminant Analysis,简写为ST-MFDA)。ST-MFDA通过为每种协变因素学习成对的时空投影矩阵,将来自不同协变因素的运动特征投影到同一个公共子空间中,通过广义费舍尔判别准则保证在公共子空间中类内散度小而类间散度大,以缓解多协变因素对身份识别精度的影响。
本文从三维人体姿态估计、时空度量学习以及子空间学习三个主要层面逐步展开,提出了一系列建模方法来解决人体运动分析中的关键子问题。通过理论分析和实验证明了所提出的三维姿态估计方法、时空度量学习方法和时空多因素判别方法在人体分析任务中的可行性、高效性以及相对于传统方法的优越性。