论文部分内容阅读
互联网的飞速发展,为人们的生活带来了极大的便利,并逐渐成为人们获取信息的主要来源。但同时,在互联网上海量的图像中,存在大量的成人图像。这些色情内容极大地影响了儿童和青少年的身心健康。检测并过滤互联网上的成人图像,为青少年儿童提供一个健康的网络环境,已经成为国内外研究者日益关注的研究课题。近年来,很多研究者开始采取图像内容分析手段来识别成人图像,并且已经形成了一套主流的算法框架,即先对图像进行肤色分割,然后提取图像肤色区域的特征,最后采用机器学习策略,进行分类判别。已有方法往往误检率高,对肤色分割的精度依赖性强,并且识别速度慢。
本文针对现有算法的存在的一些问题,即存在大量误检、高度依赖于肤色检测的精度、较慢的处理速度,展开深入的研究。研究内容主要包括两个方面:肤色分割和成人图像检测。本文基于充分的文献调研,提出了一种新颖的肤色模型。在成人图像检测方面,本文着力于研究基于图像内容的检测技术,对已有的较为成熟并且可靠的算法框架进行有针对性的改进,提出了高效的检测算法。本文做出了如下主要贡献:
(1)传统的像素级的肤色分割模型,往往侧重于利用图像像素本身的信息,而忽略了相邻像素所提供的信息。在彩色图像中,属于同一区域的相邻像素通常具有很高的相似性。本文从这个角度出发,利用相邻像素之间的相似性来进行肤色分割,提出一种新颖的在线学习肤色模型。分割方法在训练阶段对相邻肤色像素间的颜色相似性进行建模,在分割阶段首先确定种子肤色像素,然后应用学习得到的模型进一步分割出图像中的其他肤色像素。在模型训练阶段,我们设计了一种在线学习的增量训练方式,在肤色分割阶段,结合使用了区域生长技术。实验表明,相邻像素之间的相似性,为彩色图像中的肤色区域分割,提供了重要的线索。
(2)现有的成人图像检测算法往往在整个原始图像或者原始图像的全部肤色区域提取图像特征。人体是成人图像最显著的前景内容,并且往往并不占满整个图像区域。因此,我们提出了ROI过滤算子的策略。该策略首先对原始图像进行肤色分割,得到图像的肤色图,然后对肤色图进行连通分量分析,提取原始图像的ROI,并将ROI的尺寸作为过滤器。如果检测到的ROI的长或宽小于45像素,那么原始图像极有可能是正常图像。由于成人图像中的人体对象往往比较大,因而,ROI图像过滤算子能以很高的置信度,有效地过滤掉大量正常图像。实验表明,ROI过滤算子可以过滤掉35.78%的正常图像,同时,只有0.05%的成人图像被当作正常图像。
(3)彩色图像中,前景对象周围的空间上下文往往包含着一些有用的语义信息。基于这一观察,我们提出在整个ROI上提取图像特征,用于进一步的图像类别判定。而且,从整个ROI上提取图像特征还能降低成人图像检测算法对肤色分割精度的依赖性。实验表明,与只在ROI中肤色区域提取图像特征相比,在整个ROI上提取图像特征取得了更高的灵敏度、奇异度和准确度。
(4)综合ROI过滤算子和在整个ROI上提取图像特征的策略,我们提出了一种高效的基于图像全局特征和SVM的成人图像检测算法。对于一幅给定图像,首先使用ROI过滤算子进行过滤。如果输入图像未被过滤算子判别为正常图像,那么进一步提取其ROI的颜色、纹理、形状描述子构成特征向量,使用SVM分类器进行类别判定。实验表明,该检测算法在一个由20,500幅图像构成的数据集上,能够达到96.05%的灵敏度、96.17%的奇异度和96.12%的准确度,检测速度为0.026秒/幅。