论文部分内容阅读
基于计算机视觉的人体姿态估计是从单张RGB图像上获取人体关节点的位置以及关节点之间的相互连接。人体姿态估计在智能监控、人机交互、虚拟现实以及运动分析等领域有着广阔的应用前景。随着深度学习算法的发展,基于深度学习的人体姿态估计算法逐渐取代传统基于图结构模型的算法,姿态估计精度和速度都有所提高。但现有基于深度学习的人体姿态估计算法依然在实时处理方面面临巨大挑战。
本文主要研究目标是保证精度前提下提高人体姿态估计效率,实现实时多人姿态估计,推动人体姿态估计在智能监控方面的应用。
本文研究方法为基于深度学习的方法,采用自底向上的思路进行多人姿态估计,神经网络先预测出图像上所有关节点的位置,然后将关节点进行连接形成图,并根据图优化方法确定每个人的姿态。自底向上的方法使算法的复杂度不随人数增加而提高。本文所使用的网络框架为双分支六个阶段的结构。多阶段可扩大整体感受野,提高关节点预测精度;双分支可同时预测人体关节点位置和关节点之间的空间关系。为了表示关节点之间的空间关系,本文提出了关节点亲和区域,该区域由一系列单位向量组成,可同时描述肢体的位置和方向,有效稀疏关节点之间的冗余连接,降低图优化算法的复杂度。
此外,本文将人体姿态估计算法应用在监控场景下人员异常行为分析。主要思路是基于KCF算法对人体关节点进行跟踪,计算每个关节点的运动速度,通过对比同一个人身上不同关节点之间的相对运动速度确定是否存在异常行为。
实验数据采用实际监控常见的场景,抽取不同时段、不同分辨率、不同人流量和不同天气状况视频图像帧进行标注并训练本文提出的深度网络。训练结果表明,在监控场景下,各个关节点的平均预测精度达到0.84,优于目前现有基于深度学习的算法。算法运行效率方面,比较了三种不同分辨率视频:1920×1080、1280×720和720×480。若对每帧图像都进行姿态估计,运行耗时分别为23帧/s,30帧/s和46帧/s。若采用跳帧间隔估计并用KCF算法进行跟踪,则运行耗时分别为35帧/s,41帧/s和60帧/s。实验表明本文所提的六阶段双分支网络结构满足实时人体姿态估计,可实时处理常规的监控视频流。
本文主要研究目标是保证精度前提下提高人体姿态估计效率,实现实时多人姿态估计,推动人体姿态估计在智能监控方面的应用。
本文研究方法为基于深度学习的方法,采用自底向上的思路进行多人姿态估计,神经网络先预测出图像上所有关节点的位置,然后将关节点进行连接形成图,并根据图优化方法确定每个人的姿态。自底向上的方法使算法的复杂度不随人数增加而提高。本文所使用的网络框架为双分支六个阶段的结构。多阶段可扩大整体感受野,提高关节点预测精度;双分支可同时预测人体关节点位置和关节点之间的空间关系。为了表示关节点之间的空间关系,本文提出了关节点亲和区域,该区域由一系列单位向量组成,可同时描述肢体的位置和方向,有效稀疏关节点之间的冗余连接,降低图优化算法的复杂度。
此外,本文将人体姿态估计算法应用在监控场景下人员异常行为分析。主要思路是基于KCF算法对人体关节点进行跟踪,计算每个关节点的运动速度,通过对比同一个人身上不同关节点之间的相对运动速度确定是否存在异常行为。
实验数据采用实际监控常见的场景,抽取不同时段、不同分辨率、不同人流量和不同天气状况视频图像帧进行标注并训练本文提出的深度网络。训练结果表明,在监控场景下,各个关节点的平均预测精度达到0.84,优于目前现有基于深度学习的算法。算法运行效率方面,比较了三种不同分辨率视频:1920×1080、1280×720和720×480。若对每帧图像都进行姿态估计,运行耗时分别为23帧/s,30帧/s和46帧/s。若采用跳帧间隔估计并用KCF算法进行跟踪,则运行耗时分别为35帧/s,41帧/s和60帧/s。实验表明本文所提的六阶段双分支网络结构满足实时人体姿态估计,可实时处理常规的监控视频流。