论文部分内容阅读
随着现代多媒体技术的发展,图像已经成为了信息最重要的载体之一。如何有效识别和理解图像中的人体相关信息成为了现代计算机视觉研究的重点。人体姿态估计任务的目标是预测图像或视频中的人体关键点位置,通过关键点组成的铰链式结构表达人体姿态。人体姿态估计作为人体行为识别、人体跟踪等任务的基础,一直是计算机视觉领域的研究重点。同时,人体姿态估计也具有巨大的实际应用价值,被广泛应用于人机交互、游戏娱乐以及体育赛事分析等场景。为了满足不同场景下的应用需求,本文的研究内容主要分为如下两部分。针对多人2D人体姿态估计中人体检测框利用率不高,人体姿态估计结果存在量化误差的问题,本文提出了一种基于多分支自校准网络的算法。在人体检测阶段,本文通过基于竞争机制的后处理算法来保留适度冗余的人体检测框,通过综合考虑人体检测和姿态估计结果来选取全局最优解。在人体姿态估计阶段,传统的单分支网络随着输出分辨率的下降,量化误差不断扩大,性能急剧恶化。本文设计了一种联合位置热力图和位置偏移量预测的多分支网络,通过有效且直观的策略对两个分支的结果进行融合得到最终的姿态。在模型融合阶段,本文提出同时利用投票机制和加权平均算法提升多模型融合的精确度。在公开数据集上的实验表明,本文提出的方法达到了领先的水平。针对3D人体姿态估计存在的数据集缺失和解空间复杂的问题,本文提出了一种基于多分支深度可感知网络的算法。在网络结构方面,本文通过多分支结构将3D人体姿态估计任务拆解为2D坐标预测和深度感知两部分,降低了问题求解的复杂性。同时,多分支结构的设计使得模型训练可以利用2D数据进行弱监督。在训练策略方面,为了避免不同分支相互干扰导致模型不收敛,本文采用了多阶段训练的策略。在损失函数方面,本文引入了多种几何约束限制解空间范围,提高了模型对于复杂姿态的识别精度。在公开数据集上的实验表明,本文提出的方法取得了有竞争力的结果。