论文部分内容阅读
人类感知外界信息,80%以上是通过视觉得到的,让计算机具有视觉是人类多年以来的梦想。随着人机交互技术的发展,人与计算机之间自然的、多模态的交互将成为人与计算机之间交互的主要方式。而这首先就需要计算机可以正确地理解和捕捉人的行为,运动捕捉正是在这种背景下提出来。运动捕捉是指检测和记录运动目标(通常是人)的动作或表情,并将其转化为数字化的“抽象运动”的技术,其结果则表示为不同时刻目标所处的姿态。它是新一代人机交互的关键技术之一,同时也可应用于动画游戏制作、运动分析、虚拟现实、智能监控及模型基编码等领域。基于视觉的人体运动捕捉具有非入侵、成本低、智能化等优点。从图像序列中获取人体的姿态信息已经成为运动捕捉领域的热点之一。然而由于存在人体的非刚体运动、三维空间到二维图像平面投影的多义性、人体的遮挡与自遮挡、高维状态空间搜索、复杂条件下的图像特征提取与匹配等方面的困难,从视频图像中恢复出人体三维运动姿态存在大量的不确定性。因此三维人体运动捕捉是计算机视觉领域一项非常有挑战性的任务。本文正是从计算机视觉的角度出发,对基于视觉的人体运动捕捉和姿态估计进行了深入地研究,其取得的主要成果可以总结如下:1.提出了一种集多种约束功能的活动轮廓运动目标提取算法,即MC-GMM-Active Contours。它在活动轮廓的框架之下引入了对GMM背景模型的描述。为了有效地利用前一帧已经获得的前景目标的有关信息,能量函数中引入了前景颜色模型。为了有效的抑制阴影,能量函数中引入了阴影消除能量项来代替以往独立的阴影消除模块。人们对物体的认识主要是来自于其外形轮廓,而能量函数的曲率约束项则将目标轮廓及先验知识约束统一于运动目标提取的过程之中。能量函数的优化采用曲线演化及水平集方法来优化目标函数的方法。而在水平集的数值解中,采用了半隐式无条件稳定的加性算子分裂算法(Additive OperatorSplitting,AOS)。这些使得我们在固定摄像机条件下,获得了比通常算法更准确和快速的运动目标提取算法。2.提出了一种结合改进的三维动态马尔可夫随机场(Markov Random Fields)和距离能量模型(Distance Energy Model)的姿态估计方法(M-MRF-DEM)。相比以往基于MRF的运动捕捉算法,有如下的改进:为了使模型与表演者任何时候都合身紧凑,我们提出了一种基于骨架模型的自适应距离能量模型。它可以根据姿态估计过程中的反馈,对人体模型进行在线更新。为了可以更有效的描述MRF中体素之间的关系,我们采用了一个更准确的二元交互势。为了能更好地约束人体运动姿态的合理性,我们引入了更合理的附加约束项。实验表明改进后的算法使得估计的姿态更为鲁棒。3.提出了一种无需目标提取的3D活动轮廓运动捕捉算法。该方法不再把运动目标提取和姿态估计作为两个独立的模块相继处理。以往的运动目标提取模块提取出人体轮廓之后,后续的处理步骤只关注图像中轮廓以内的部分,这使得后续步骤中信息出现丢失。同时这也使得后续的处理过分依赖目标提取的结果,一旦目标提取存在错误则在后续步骤中无法恢复。而基于3D活动轮廓的人体运动捕捉将人体的目标提取与姿态估计无缝地整合到活动轮廓的框架下,借助于人体模型,将运动捕捉与三维重建两个任务有机地结合起来,克服了前面的缺点。同时该算法引入了人体运动先验约束项来抑制三维数据中摄像机遮挡带来的影响,这些改进使得我们的算法获得比通常算法具有更高效率和更加鲁棒的效果。4.提出了一种基于2D活动轮廓的强先验运动目标分割与人体姿态估计算法。该方法同样不再把运动目标提取作为一个独立的模块来单独处理。但是在很多情况下,人们不仅需要得到更加精确姿态估计,同时也要获得运动目标分割的较好结果。因此本方法致力于同时获得人体的姿态和目标分割的更好结果。本方法仍以人体模型为基础,将运动捕捉和目标分割统一在活动轮廓的框架之下。一方面人体模型的强先验知识可以指导目标分割获得更好的分割效果,另一方面好的目标提取效果又使得姿态估计有更高的精度。