论文部分内容阅读
人体姿态估计是从图片中获取人体各个部件的位置、大小和方向等信息。它可以应用于智能监控、高级人机交互以及图片检索标注等方面,因此该研究是近来机器学习领域的一个热门问题。由于人体及人体姿态的多样性,在姿态估计中要涉及多个视场角度,对其进行有效表征需要建立多个模型,对其求解要花费大量的计算资源。目前,人体姿态估计最有效的方法是基于图结构(Pictorial Structure,即PS)模型的方法。该方法基于图模型将人体表示为一些部件以及相连部件间的连接,其中部件由外观模型决定,相连部件间的连接由变形模型描述。基于该模型,人体的姿态可通过图推理获得。该模型中,外观模型和变形模型可以单独建模,使得该模型具有很大的灵活性。本文以PS模型为基础,展开了相关研究与改进,以更好的实现人体姿态估计,主要的工作如下:(1)基于图模型分析了姿态估计的两个常用模型DPM和PS模型的原理,通过比较分析,得出PS模型更适于人体姿态估计,并采用通用的评价标准来评价算法的性能。(2)为了克服经典PS模型对人体模型的表现不足以及人体姿态搜索空间过大的问题,基于弹簧模型,提出了对相邻部件中子部件的方向与该相邻部件的空间相对位置之间的关系进行建模的人体姿态估计方法,即PS混合模型方法。该模型抓住了人体部件之间的局部刚性特征,利用了人体的更多的先验知识。在Buffy和Parse图片库上做实验并进行了分析。实验结果表明,该方法可以提高人体姿态估计的准确性。(3)针对单帧图片中一些姿态过于相似而难以区分的问题,基于连续帧图片的时间连续性,提出了在骨架姿态中引入关节的局部动作信息来进行人体姿态估计的方法。该方法采用3D时空梯度方向直方图特征来描述关节的局部动作信息,并结合人体骨架姿态组成运动姿态,采用视觉词袋模型将运动姿态进行聚类分析得到视觉单词,将连续帧图片描述为视觉单词的词频直方图特征,并传入分类器进行训练及分类。在KTH、UCF-Sports和Weizmann数据集上进行实验和分析。实验结果表明,该方法可以提高人体姿态估计的准确性。