论文部分内容阅读
手势交互是现在人机交互中主流的方式,也是多种人机交互中的研究热点。手势交互从之前依赖于数字手套,肌电等外接硬件设备,到现在逐渐发展成使用计算机视觉算法来解决手势交互中的问题。基于计算机视觉的手势交互方法不需要借助外界设备,符合人们日常与计算机的交互习惯,在其中最需要解决的问题就是如何提高手势识别的准确率和速度。而近几年,深度学习的迅速发展,使得计算机视觉内很多问题都得到了很好的解决。因此,本文将深度学习的相关方法应用于手势识别问题中,解决了复杂环境及受人脸等物体干扰的情况下的手势识别,并且提出了一些改进方法,对相关算法的速度进行了提升。本文分析了多种传统手势分割算法,针对传统手势识别算法存在的问题,如易受到复杂外界环境干扰,对手势高自由度,容易形变等特性不具有鲁棒性等缺点,提出基于全卷积神经网络的手势分割算法。卷积神经网络通过网络学习丰富的特征,代替手工设计特征,因此基于全卷积网络的分割准确率相对与传统方法有了很大的提升。本文还对全卷积神经网络的网络结构进行进一步优化和改进,将网络结构压缩为四层卷积层和一层反卷积层,最终得到的网络模型真正率为93.8%,假正率为5.3%,网络在GPU下运行速度为18ms,满足人机交互的实时要求。整个模型能够处理如人脸等类肤色物体对手势分割结果的影响,对不同环境,不同光照,不同角度的手势具有较高的鲁棒性。本文对传统手势识别系统的各个模块进行了研究,指出传统手势识别的结果依赖于其他模块的准确性,整个系统容错性不高,准确率较低,易受到复杂环境,手势变化等因素的干扰。针对这一系列问题,本文设计了一种基于目标检测网络的手势识别算法。该算法在一张图像上同时完成对手势类别和位置的密集预测。本文还对网络结构进行了改进,将前置基础网络进行拆分并化简为小网络。在使用网络检测出手势之后,使用跟踪算法,实现了基于跟踪的手势检测。使用改进的网络后,单张图片的检测时间为110ms,识别准确率为81.2%,在此基础上使用基于跟踪的检测方法,整个算法平均检测速度为33ms每帧。实验证明,该算法解决了复杂环境,人脸等身体部位等因素对识别的干扰,对手势的高自由度,形变等具有鲁棒性,能够实时跟踪检测手势,满足了实时手势交互的要求。此外,本文还建立了一套具有高质量的、像素级的手势分割数据集和手势检测数据集,用于对本文提出的网络进行训练和测试。