论文部分内容阅读
深度神经网络在许多领域已取得巨大成功,例如图像分类、目标检测、语义分割、自然语言处理等。然而对抗样本的存在导致深度神经网络的安全性备受关注。对抗样本是在原始数据中添加不可察觉的扰动所生成的输入样本,该样本导致深度神经网络以高置信度输出错误的结果。研究表明,许多对安全要求严格的深度学习系统会受到对抗样本的攻击,例如自动驾驶、人脸识别、恶意软件检测等。对抗样本的存在给人工智能安全带来了巨大威胁,这些威胁可以使人工智能系统失灵甚至是崩溃。因此,如何保护深度神经网络免受对抗样本的威胁是一个非常重要并具有挑战性的问题。近年来,国内外的研究者们提出很多防御方法来抵御对抗样本的攻击。这些防御方法主要分为两大类:一类是鲁棒性防御,即使用现有的技术使攻击者很难生成对抗样本或使深度神经网络在受到对抗样本攻击时仍输出正确结果;另一类是检测性防御,即检测输入样本是否为对抗样本,并拒绝将对抗样本送入深度神经网络进行分类。提升对抗样本防御方法的性能需要解决三个科学问题,一是抵抗在大尺寸图片数据集上生成的对抗样本,二是尽可能地不影响原始神经网络的性能,三是抵抗二次对抗攻击。围绕这三个关键科学问题,本文研究针对图像分类的对抗样本防御方法。本文主要的研究工作与创新点如下:1.基于隐写分析的检测性防御:本文将对抗样本视为一种偶然性隐写,提出基于隐写分析的对抗样本检测方法。本文使用隐写分析特征度量输入图像相邻像素的相关性来判断输入图像是否为对抗样本。同时本文根据对抗样本的特性增强了隐写分析特征,进一步提升了检测方法的准确率。实验结果表明,基于隐写分析的检测方法可以准确地检测多种攻击方法生成的对抗样本。此外,攻击者很难直接对本文提出的检测方法进行二次对抗攻击,因为基于隐写分析的检测方法并不是基于神经网络,而是基于人工特征。2.基于图像修复的鲁棒性防御:本文提出基于图像修复的鲁棒性防御。本文借助类激活映射技术找到输入图像中可能被添加对抗扰动的区域。将该区域的像素擦除后,通过图像修复技术修复被擦除的区域,得到重建后的图像。从而可以将输入图像的大部分对抗扰动去除。为了进一步去除重建图像中可能残留的对抗扰动,使用JPEG压缩对图像中未修复的区域进行处理,再与图像修复的区域拼合在一起。实验结果表明,基于图像修复的防御方法可以有效防御多种对抗攻击方法,同时对干净图片的分类准确率影响很小。3.针对对抗攻击的协同防御策略:本文将检测性防御与鲁棒性防御结合,提出针对对抗攻击的协同防御策略。协同防御策略中的检测性防御区分待测样本中的干净样本和对抗样本,将干净样本直接送入原始网络中进行分类,仅将对抗样本送入后续的鲁棒性防御中进行处理。同时协同防御策略将鲁棒性防御面临的问题简化,只需考虑输入样本大概率为对抗样本的情况。实验结果表明,协同防御策略在几乎不影响原始分类网络性能的情况下,仍然能够以较高的准确率分类对抗样本。