论文部分内容阅读
随着智能终端和视觉计算技术的快速发展,基于视觉的人机交互,尤其是以人手为媒介的交互,正被越来越多地应用于人们的日常生活中。在诸如手势识别、手的姿态估计、手和物体的交互分析等以人手为媒介的交互应用中,手形的准确分割常是重要基础。尽管手形分割有着长达数十年的研究历史,但在自然场景下的实际应用中,其在分割精度或运行效率上的表现依然不尽如人意。本文围绕如何高效地从图像和视频中获取高精度的手形分割这一主题展开,提出了三种手形分割算法。首先,本文提出了一种面向深度图的高精度手形分割算法,其主要由手形分割备选项生成和手形分割备选项评估两个模块组成。给定一帧深度图,基于深度信息可很容易地从深度图中分离出手形大致区域。然而想要从中进一步提取出精准的手形并非易事,面临着诸多挑战。观察到手形大致区域常是带状物体,本文提出一个基于受限德洛内三角剖分的手形分割备选项生成方法,沿着手臂朝向密集地生成分割备选项。然后,该算法使用类R-CNN与类Fast R-CNN的网络框架来评估每个备选项与真实分割的匹配程度,并挑选匹配程度最高的备选项作为分割结果。在两个较大的深度图数据集上的实验结果表明本文算法较之前的算法取得了更高的精度。其次,本文提出了一种面向深度图视频的高精度低延迟手形分割算法,利用视频的连续性将深度图像手形分割网络转变成高效的深度图视频手形分割网络。该算法由光流导向特征传导和轻量级细节增强两个模块组成。光流导向特征传导只在稀疏的关键帧上运行整个图像手形分割网络,然后基于光流,通过特征传导对非关键帧的特征进行估计。相较于逐帧运行图像分割网络,使用光流导向特征传导可以大幅度地提升运算效率。但传导的特征只是一种近似估计,存在着偏差,因而相较于逐帧运行图像分割网络在分割精度上有明显损失。为缓解此问题,本文引入一个细节增强模块来在当前帧上提取细节增强特征对传导的特征进行增强。在一个标准的深度图视频数据集上的实验验证了此算法在精度与速度上的优越性。最后,本文提出了一种面向第一视角彩图视频的高精度低延迟手形分割算法。该算法基于光流导向特征传导和轻量级细节特征增强,通过引入一个遮挡注意模块,进一步缓解了光流导向特征传导在第一视角彩图视频中的遮挡问题。简要而言,它明确地预测一个带权遮挡图来评估每个点在光流导向传导中的遮挡程度。基于带权遮挡图,对当前帧提取的细节增强特征使用空间注意力机制以得到遮挡注意的增强特征。然后,把光流导向传导的特征与遮挡注意的增强特征进行融合来预测分割结果。在三个公开的第一视角视频数据集上实验结果表明此算法相较于之前的算法取得了更好的精度-速度权衡。