论文部分内容阅读
近几年,人工智能平台发展的脚步不断地向前迈进,智能产品宣传的范围和程度也在不断扩大,这促使了智能平台以及智能设备呈现出了使用对象多元化多样化的局面,其中尤为更甚的是各种万别千差的智能设备和智能平台的社会化全面化普及,因此人机交互这个概念已经变为大众社会化社交以及生活当中至关重要的属性,而人与机器交互最终需要实现并且达到的效果是人类和机器无障碍自然地交流,基于此,在现代计算机视觉科学和语境沟通技术领域当中,关于人类体势姿态的研究便符合并且顺应了技术发展趋势成为了值得人们深入探究的一个知识技术领域,而人类体势姿态的获取通常是相对于手而言,手势识别则是一项极具研究和探索价值的创新型交互技术代表之一。所谓手势识别,目的是对人的手部姿势进行检测并且语义识别,对于人体手部姿势的研究能够推进许多创新型的智能人机平台和系统的创新发展。在许多的智能消费展会、数码科技展会、家电展品会甚至汽车展览会等场合,皆可看到并且了解手势识别技术的成果以及创新,例如在当下热门的智能驾驶领域,驾驶员能够通过在车辆顶部放置的三维检测传感器对其手部姿势进行一系列检测并且识别,实现对汽车娱乐系统功能以及定位导航等功能的无接触控制;在技术较为新颖的穿戴式科技产品领域,当下前沿技术的代表莫过于基于微软全息AR技术造就的HoloLens眼镜,它可以使用内置的深度摄像头捕获周围的真实环境并作为载体,跟踪人体手部的动作使人能够在虚拟图像上进行信息的编辑,而这一系列的操作仅仅通过使用者的手部来完成。在手势关于识别的初期主要是使用一些机器设备对人体的手部、胳膊各关节的位置(角度以及空间)信息加以利用进行检测,这些穿戴的设备大多数是通过有线技术将使用者与机器设备相连,然后使得用户所呈现的手势信息能够精确地传送到相应的硬件设备中,数据手套就是典型的设备。数据手套一般是通过许多传感器组件制成,其虽然能够较好地完成手势检测的任务,但量产化的付现却不容易,不菲的价格使其难以应用在常规领域。之后光学标记方法取代了数据手套,这种方法将标记置于人体的手部,通过激光射线进行检测,将人手和手指的位置变化输出到系统中,识别结果也尚佳,但是仍然需要大量复杂的外部设备并且手部姿势自然的表达方式已被掩盖。因此,手势识别技术关于视觉方面的研究应运而生,该技术对含有手部姿态姿势的一系列图像帧,通过相应的智能视觉方法对数据进行整理,从而对手势进行识别任务的开展.然而,许多方面会对该技术造成影响,例如光照强度就是一个影响手势识别准确度的需要注意的方面,研究可以发现动态手势识别的任务最终可在静态方向上得到实现,探究和提升静态手势识在不同光照下的鲁棒性和准确度是十分重要并且具有研究价值的。本文探究的内容针对手部姿势动作这一特殊的对象,通过手部姿势在不同的物理位置表达出来的具有针对性可鉴别性的特点来解决相关的检测和跟踪和识别的任务,本论文的主要工作针对静态手势识别,其中主要内容有如下几个部分:(1)首先,查阅纸质或者电子版的文献并且结合实验的方法探究了两种传统的肤色模型(HSV颜色模型和YCbCr色彩模型)中的表现优秀的变量和有缺陷的方面,从而建立H-Cb-Cr的肤色检测模型,该模型提升了静态手势识别的鲁棒性(不同光照强度下)。(2)对基于(1)所提出的肤色检测模型对输入的包含手部的灰度结果进行处理(形态学方面),并且通过将OpenCv的分水岭算法的轮廓获取和有向种子填充算法的区域框选相互应用获得了肤色连通部分的相应目标属性信息。(3)再次,通过(2)所得到的相应图像属性特征进行基于手势肤色区域的边界以及位置信息的探究,提出了基于高度-宽度-肤色比例的手势区域跟踪模型,该模型可以较好地获得手部区域的位置信息,并且划分出需要的手部区域。(4)最后,通过结合机器学习(Hu矩不变量和支持向量机)完成了最终静态手势图像的识别任务。本论文的具体探究思路如下展示。一、肤色检测人体最明显的特征之一就是肤色,并且肤色在手部区域整体范围上的外观分布较为均匀且有一致性,因此通过此现象的特点可以对人体裸露的器官进行有效的检测。所谓肤色检测,即是将肤色区域进行分割获取,这一技术的本质是对图像所包含的像素点进行类别区分,它们或为肤色类,或不为肤色类。手势识别的首要阶段即是肤色检测,肤色检测直接决定了最终手势识别结果的效果,如果能改进肤色检测的识别准确度,便可以得到良好的手势识别的准确性。其中,基于特定阈值的肤色检测通过样本数据集进行实验和观察建立某个肤色模型的分布范围(通过不等式定义并且简单组合),其拥有高效率、简易的实现优势。然而许多因素会对肤色识别的结果以及准确度造成影响,比如说环境的光照强度需要注意,图像分割中一个最常见的问题就是光照强度的分布问题,将会导致像素失真的结果。不同等级的光强对模型空间中肤色的建模起到不小的影响,使得分割结果出现错误,难以进行识别。本阶段首先对HSV颜色空间进行探究。所谓HSV颜色空间,它是针对颜色数字化过程而被提出的,是人们常用的颜色系统,其中H为Hue,代表了色相;S为Saturation,代表了饱和度;V为Value,代表了亮度。为了研究这种颜色空间,首先通过笔记本摄像头进行含有肤色的图像数据集的采集(1000张,分辨率为640X480),从中随机选取了 100张图片并且进行手工截取手部肤色样本(只含有手部肤色),通过Matlab工具对收集的这些肤色样本的饱和度、亮度以及色相三类分量通过直方图对比统计分析,可以分析并且观察出色相分量的分布比较集中,聚类性较好,而饱和度和亮度分量分布较为分散。并且进一步对采集的肤色图像做交叉分布直方图,得到肤色在H-S、H-V和S-V平面内的分布情况,从实验中所获得的结果可以分析出肤色在H-S、H-V、S-V色度平面都比较分散。综上所述,H(色相分量)适合作为肤色模型的参数,并且基于此现象,根据数学统计学得到基于H(色相)值的肤色检测模型,对输入的原始图像数据运用特定阈值分割的方法后得到的二值结果图像显示该肤色检测模型可以胜任分割肤色的任务,但是图像中除了手部区域以外还有脸部区域和很多细少的噪声碎片。再次,对YCbCr色彩空间进行了探究,所谓YCbCr色彩空间,在影像处理和数字摄像领域较为常用,其中Y为Luminance,是指亮度分量;Cb 为 Blue-differenceChroma,是指蓝色色度分量;Cr 为 Red-differenceChroma,是指红色色度分量。同样,为了研究这种颜色空间从数据集中采取100张图片并且进行手工截取手部肤色样本(只含有手部肤色),通过Matlab工具对所收集的这些肤色数据样本的上述所提及的分量通过直方图和交叉分布直方图的方法,得出结论色度分量(蓝色和红色)具有较好的聚类性,并且Y-Cb、Y-Cr平面比较分散而肤色在Cb-Cr色度平面内的分布比较集中,因此Cb-Cr分量适合作为肤色检测模型的参数,并且基于此现象,根据数学统计学得到基于Cb-Cr值的肤色检测模型,对输入的原始数据进行特定阈值分割后的结果显示该肤色检测模型可以胜任肤色分割任务,但是图像中除了手部区域以外还有脸部区域。通过以上两种肤色检测模型的探究并进行结合,提出基于色度-蓝色色度分量-红色色度分量的H-Cb-Cr模型,并且采集三种光照的图像数据进行输入并且比较(H模型,Cb-Cr模型,H-Cb-Cr模型),得到结论,在不同的光照强度下,通过基于H值的肤色检测模型进行分割对于肤色像素点保存较好,与此同时未被去除的非肤色干扰像素点也较多;通过基于Cb-Cr值的肤色检测模型进行分割能较好地去除非肤色干扰像素点,但在高亮环境下,肤色像素点受损严重;而通过基于H-Cb-Cr值的肤色检测模型进行分割,将以上两种肤色检测模型的优点相结合,达到了最为优秀的肤色检测效果,呈现出的鲁棒性效果优秀。二、图像分割这一部分讨论静态手势探究过程的分割图像步骤。所谓图像的分割,是指通过图像的灰度或者颜色和几何等特征将输入的图像按照需求拆分(相交或互补),并在各个小单元中,图像的特性将呈现趋向相同的特点或者趋向一致的特点,同时,不同块之间图像的特征应该有非常多的差异。手势识别的下一步即对输入的数据图像进行分割,静态手势分割旨在将肤色连通的区域分割出来,并且获取手势区域块的位置以及边界信息,区域块的位置以及边界信息对手势动作跟踪的结果影响较大,若能精确地对肤色连通区域进行提取将很大程度提升手势识别运算效率以及抗噪声的能力。分割图像首要为运用灰度形态学方法,数学形态学可以用来达成噪声过滤、检测与分割等操作,膨胀、腐蚀为基本操作,而开、闭运算又是通过结合它们组合得到,在上一阶段处理的结果中手部和脸部区域存在着噪声孔并且背景区域中也含有小噪声干扰,通过腐蚀和膨胀方法(借助OpenCv)后可以发现腐蚀操作得到的结果要使得各像元比之前变得更小,对于过滤高峰噪(背景区域的细小噪声)声有优秀的贡献;膨胀操作会使得各像元比之前的变得更大,对于过滤低谷噪声物体空洞中细少的部分)有良好的贡献。并且通过实验可以观察到开运算的结果较为良好,开运算(先腐蚀后膨胀),它的第一次的腐蚀操作将物体的边缘点去除,而小物体都会被视为边缘点,因而整体被删除。当再进行膨胀操作时,留下的大物体又会重回到先前大小,而已去除的小物体则永远消失,可以得到结论开运算操作对细小的噪声有抑制作用,并且依据图像结果能够了解一次开运算便能符合系统的需求。第二步通过OpenCv改进的分水岭算法进行肤色连通区域的获取,它使用先验的标记来引导通过分水岭算法进行的图像分割。首先,运用一次开运算的结果进行6次腐蚀处理获得前景像素,并用255标记前景,用0标记未知像素;接着使用一次开运算的结果进行6次膨胀并反转二值阈值化,获得背景像素,并用128标记背景,使用0标记未知像素;再将前景像素和背景像素合成得到标记图像,最后将原图和标记图像借助OpenCv改进的分水岭算法,可以得到所需要的结果。第三步,使用八向种子填充算法便能够了解并且获得到肤色连通域的信息,种子填充算法仅仅需要给出对象内部的一个像素点,将点看作种子,从该种子位置处扩散并合并,便可形成所需的分割区域。对第二步获得的分水岭分割图像进行八向种子填充算法便获得了脸部和手部的区域块和位置属性特征。三、手势跟踪模型本阶段的任务为在(3)得到肤色连通区域位置和边界信息后进行手势区域块的跟踪,从(3)获得的肤色连通区域(以(xmin,ymin)、(xmax,ymax)两点的位置来表示连通区域位置和边界信息)并非全为手势肤色部分,脸部肤色部分也包含在其中,手势跟踪的任务便是筛选获取得到只包含有手部的区域并进行分割。定义手势区域块的高、宽分别为高度=ymax-ymin,宽度=xmax-xmin,对手部肤色连通区域的长宽进行统计并且通过它们的分布可以了解手势区域块的长宽不仅独立分布也具有聚类性,之后通过数学统计学得到了基于宽度和高度的手势区域跟踪模型,接着定义了肤色比例(Sr)=肤色像素点总数/区域面积,经由结果分布分析,通过统计学方法得到了肤色比例模型,结合这两个得到的模型,得到基于Height-Width-Sr的手势区域跟踪模型,根据实验得到结论本模型在图像分割过程中能够成功滤去残缺肤色区域,手势区域提取率达99.05%,并且能够较好地区分手部和脸部肤色相接部分,手势区域块提取准确率达99.93%,总体来说胜任本阶段的任务。四、基于机器学习的手势识别本阶段探究基于视觉手势中的手势识别问题,为了检测手的姿势,机器学习可胜任本阶段任务,其中包含静态手势识别和动态手势识别,而动态手势识别最终可转化为静态手势识别。通过(3)可以获得手部区域信息,但分割出的手部区域的语义和类型却未可知,故识别出所定义的手势类型为本阶段重点。本论文使用结合基于Hu不变矩和支持向量机的方法进行识别方面的任务。在识别图像的过程中,图像能够看作是不个多准密度分布函数(根据其灰度值),如此不来,矩就可以看作不个重要的属性,Hu矩对图像的平移、旋转和尺度变换具最不变性的特点,Hu矩对图像的区域进行描述,由于它的特性,能够对(3)得到的手势区域提取其不变矩特征进行图像的分析。对于手势目标分类方法,本论文的手势识别问题本质不针对的样本目标并非巨大,因此分类性能卓越的支持向量机足以胜任成为手势识别分类器。本论文采用Hu矩和使用线性核函数的支持向量机方法来处理数据。第不步,使用摄像头获取的方法建立手势样本库,获取每种包含手势的100张图像并进行人工截取只留下包含手部的区域,将人工截取获得的手部区域图像根据分类放在5个文件夹下,并存放于目录下,程序遍历获得指定路径内的需要的图片文件,而后将读取的手部区域图像进行预处理并且进行Hu矩分量提取便可进行模型的训练,之后对不同姿势的手部区域图片预测后得到结果,实验表明结果理想,综合不同光照手势识别正确率达到98.70%,能够胜任识别的任务。