论文部分内容阅读
随着现在科学技术在各行各业的快速发展,世界各地人民通过利用这些快速发展的科学技术变得更加聪慧起来。当今,各种各样的信息可以直接或者间接地上传到电脑、互联网或者智能系统中。数字信息包含视频、音频、图像等媒体形式。如今,社交媒体越来越受欢迎。因此,验证社交媒体环境下的媒体信息的真实性与完整性势在必行。在过去的几十年里,大量的篡改后的数字信息通过认证机构进行广泛的传递。智能化的世界也会使得罪犯因此而受益,他们利用先进的科技和高效的软件去篡改原始的法庭证据,使得社会公信力和法庭的公正以及严谨性遭受了极大地损害,因此,图像取证技术变得更加迫在眉睫,图像取证正是研究解决数字世界可疑行为的技术手段之一。在取证领域,各种各样图像,如医学图像、商业图像,法庭证据等,这些图片的真实性和完整性是非常重要的。利润在医学领域,医生必须从图像中诊断疾病,对于图片的依赖性非常高。因此,医学图像的真实性和完整性检测非常重要,这关乎到病人的生命健康安全。在本文中,我们将简单地介绍图像篡改的一些相关技术,但是本论文主要关注的是图像篡改检测中的的图像拼接检测。在图像拼接中,拼接图像至少是有两张图片生成的,即一幅图中截取一小部分区域,然后将此粘贴到其他的图像中。由于这种篡改的方式从很多方面都改变了图像的视觉属性。另外,图像拼接篡改相比于其他的篡改类型更加难以检测,这是因为在图像拼接场景中,多样的物体引入了更加复杂的图像和纹理特征,因此使得检测变得更加困难。但是,图像是以矩阵形式排列的像素集合。图像也是在低层特征的基础上一种表征。选择合适的特征是设计一种有效的伪造检测方法的重要步骤。特征提取步骤可以分为两种:基于全局和基于局部区域的提取特征技术。我们的工作主要基于全局特征来做的。为了更好地提取篡改图像的纹理特征,我们分析了直方图方向梯度(HOG)、离散小波变换(DWT)、Gabor小波变换(GWT)、局部相位量化(LPQ)。为了提取统计特征,我们分析了灰度游程矩阵(GLRLM)和灰度共生矩阵(GLCM)。实验证明,本文中设计的纹理特征和统计特征对于篡改图像的检测是有效的。在图像处理领域,HOG是一个非常著名的局部特征描述子,用于识别图像中的目标物体。它验证了在图片分区的邻域中梯度的出现。与其他纹理描述子相比,HOG特征具有更加出色的检测性能。在计算机视觉领域中,DWT可以用于目标检测任务中。小波在遥感、纹理分析、分类等领域有着广泛的应用,在小波变换中,输入图像通过低通滤波器(L)可以分为行和列,低通滤波器(L)基本上是图像的正常功率估计,高通频段的高分辨率(H)是图像的边缘。DWT计算母小波,一共有几种常用的小波基,即coflets小波、haar小波、daubechies小波和morlet小波。我们使用coflets小波。我们利用小波变换提取特征,计算所选小波的系数分布。Gabor小波描述符用于从图像中提取纹理特征。为了发现图像的纹理特征,Gabor小波是我们的一个很好的选择,可以为检测提供一个有效的结果。它还分析了其他纹理亮点。我们使用Gabor滤波器,因为它可以帮助我们在分析区域周围的局部区域找到特定方向上的频率含量。局部相位量化LPQ是一种基于傅立叶相位模糊特性的纹理描述子。二维短时傅立叶变换(STFT),我们使计算图像每个像素位置的四边邻域的LPQ特征。为了计算图像的统计特征,我们使用了图像游程纹理特征中的灰度游程矩阵GLRLM。该矩阵用于计算图像的游程纹理特征中像素的强度。GLRLM还计算图像或图像堆栈中离散化灰度的分配。GLRLM是一种灰色像素的模式,其方向与参考像素相同。这是一种通过方向搜索图像以查找具有相同灰度值的共线像素的方法。运行是具有相同灰度值的相邻像素。GLRLM的特点是运行强度、运行长度和从参考像素开始的运行方向。它是基于计算不同长度的灰色水平。为了研究和分析数字图像的二阶纹理信息,我们使用了灰度共生矩阵描述子GLCM特征。GLCM提供有关灰度图像中像素亮度值的不同组合出现的信息。GLCM是一种统计描述符,它显示了图像纹理中灰度空间关系的某些性质。我们使用GLCM描述子为我们提供了不同方面像素对之间相关性的总体平均值,即均匀性、一致性等。影响灰度共生矩阵识别能力的主要因素之一是像素之间的分离距离。实验使用了两种不同的数据集,即哥伦比亚数据集和CoMoFod数据集。哥伦比亚数据集包含拼接和真实的图像。我们使用了 286个真实图像和287个拼接图像。我们的方法按照我们预期产生了很好的检测效果。为了测试和分析我们的模型,我们还将我们的模型应用到另一个篡改取证图像数据库中:CoMoFD。该数据库中的图像是用拷贝移动技术伪造的。该数据库中的图像是用拷贝粘贴伪造的。我们从这个数据集中提取了 200张拷贝移动粘贴图像和200张真实图像。实验证明我们的模型得了显著的效果。在计算纹理特征和统计特征方面,我们分别将所提出的技术应用于真实和拼接图像中。在第一步中,我们将我们的提取特征的方法应用于真实的图像,并计算出所有的纹理特征和统计特征的数据。然后,我们将我们的方法应用于经过篡改的图像,也是计算出所有的纹理特征和统计特征的数据。对于模型的训练和测试,我们使用了 10倍交叉验证。训练样本是从整个图像数据集中随机选取的。通过使用SVM和KNN分类器,我们将随机输入标签分别为1和0的训练图像标志为原始和伪造的图像。对于分类器的评价,我们计算了真正率(tp)和真负率(tn)。真正率tp用于表示伪造图像是否被检测为篡改图像的概率,真负率tn用于表示真实图像是否被检测为原始图像的概率。K近邻算法(KNN)是一种监督学习算法。然而,KNN算法是一种贪婪算法,这意味着没有直接的训练阶段,而且它使得训练阶段非常快。它是一个有监督的分类器。在计算欧几里得距离时,我们首选K近邻算法(KNN)。其它的距离测量方法也可用,但欧几里得距离是稳健的,易于使用,也提供了更高的效率和生产力。需要注意的是K近邻算法(KNN)只能适用于处理高度相关的特征。在使用了 K近邻算法(KNN)之后,我们使用了支持向量机(SVM)。尽管支持向量机可以同时用于分类或回归任务。在该算法中,我们将每个数据项绘制为n维空间中的一个点(其中n是我们提取的特征数量),每个特征的值是特定坐.标的值。然后,我们通过找到很好区分两个类的超平面来执行分类。我们选择支持向量机是因为它是一个强大而鲁棒的分类器.两个分类器都支持我们的模型并产生显著的结果。因为支持向量机的特点,更适合我们的模型,给出了更可能的预测结果。虽然人们对于取证领域的研究已经有很多了,但是我们还没有一个具体的模型或算法可以处理所有类型的篡改图像。我们针对图像的特定特征(纹理特征)。不同类型的篡改图像的检测,需要使用不同的方案和技术,从而来获得足够良好的结果。