论文部分内容阅读
使用计算机视觉进行目标检测和识别是过去三十年来非常有趣且充满挑战的研究领域。在过去的十几年中,计算能力的迅速提高使得深度学习取得了突破性的进展,重新激发了研究人员对该领域的兴趣。基于机器学习和计算机视觉技术的分类和目标定位一直是研究的热门,并且取得了很大的成就。职业运动员对体能锻炼和体育技术的追求从未停止探索,各个年龄阶段的人对体育运动都愈发重视。专业运动员可以通过自动或半自动系统来辅助训练,提高训练成效,热爱运动的普通人则可以通过合适的系统进行自学以及纠正训练。这样的需求促使了研究人员将人工智能与运动领域相结合来进行研究。本文则主要针对健身运动领域中的瑜伽运动识别进行研究。根据目标检测的任务要求,分析常见的特征提取与识别分类的经典卷积神经网络。考虑到网络深度加深容易导致梯度消失问题,本文使用深度残差网络作为主干网络进行识别检测。深度残差网络由多个残差块级联而成,改进残差网络是在经典残差单元的基础上加入批归一化层,提高网络学习能力与性能。并使用人脸关键点检测数据集进行后的深度残差网络的验证。基于瑜伽动作识别的图像任务,提出了一种基于Mask R-CNN的瑜伽动作识别方法。改进的Mask R-CNN模型是基于区域卷积网络的框架与结构,通过特征提取对图像提出一定数量的候选区域并对其进行分类,然后将这些区域作为检测到的边界框输出,并对候选区域使用分割分支做掩膜预测。改进的Mask R-CNN模型使用改进深度残差网络作为特征提取主干网络,使用ROIAlign对提取到的候选区域进行双线性插值,之后进行目标分类与检测,并利用分割分支对图像分割。模型改进了分割分支中的卷积部分,用深度可分离卷积替换原来的标准卷积,提高网络效率。实验构建多边形标注的数据集,利用算法进行仿真。网络的加深以及深度可分离网络的使用在保持网络可靠性的基础上,提高了检测的准确度,验证了改进Mask R-CNN网络的有效性。