论文部分内容阅读
大数据时代,每天的商业、科学和社会活动都会产生大量数据。数据来自于传感器、流媒体、卫星、医学图像以及与云计算的交互等,数据驱动的决策方法正被应用于医学、商业、广告和娱乐等各个领域。在众多数据驱动的技术中,深度学习是发展最快的技术,并且已经在各个领域取得了巨大的成功。训练一个高性能的深度学习模型(简称“深度模型”)需要高质量的标注数据、庞大的计算资源和设计者的智慧,这使得其具有很高的商业价值和知识属性,因此可以将深度模型视为模型所有者的知识产权。如何保护深度模型的版权,使其为各个产业更好赋能,已成为了数字经济时代一个关键的热点问题。深度模型的版权保护可以看作是版权保护这一问题在深度模型这一新型载体上的拓展。数字水印是保护版权的主要技术之一。受数字水印技术的启发,深度模型水印(简称“模型水印”)技术应运而生,其主要目的是在深度模型中嵌入水印信息,在模型被攻击者伪造或窃取之后,模型拥有者可以从这些非法模型中提取出之前嵌入的水印,从而进行所有权的验证。根据验证阶段是否可以获取非法模型的内部信息(如模型权值或模型结构),模型水印进而分为白盒模型水印和黑盒模型水印两种模式。作为一个新兴的研究领域,模型水印技术面临着诸多挑战:白盒模型水印和黑盒模型水印分别面临着混淆攻击和窃取攻击的威胁;此外,模型水印还需要抵抗自适应攻击,以便在实际攻防场景下进行有效的所有权认证。针对以上存在的关键科学问题,本文首先研究白盒模型水印如何抵抗混淆攻击和黑盒模型水印如何抵抗窃取攻击。之后,本文进一步研究了抗自适应攻击的黑盒模型水印。最后,本文提出了一种能抵抗多重攻击的黑盒模型水印算法。本文的主要工作和创新点如下:1.抗混淆攻击的白盒模型水印混淆攻击指攻击者试图使用一个伪造水印通过所有权认证,破坏原始水印的唯一性,进而造成取证阶段所有权的混淆。然而,现有的黑盒模型水印方法都无法抵抗混淆攻击,只有少数白盒模型水印方法能抵抗混淆攻击,但是具有使用的局限性,即此类方法需要改变原始模型的网络结构,这会导致模型原始任务的性能下降。为此,本文首先分析了现有方法存在局限性的原因,进而提出了一种实际可行的抗混淆攻击的白盒模型水印算法。该方法基于一种新的具有护照识别功能的归一化设计,适用于大多数现有的模型结构,因此,它不会导致目标模型的网络结构发生变化。和现有方法相比,只需添加一个具有护照识别功能的分支,即可满足在不改变原始模型结构的前提下抵抗混淆攻击的要求。具体来说,这个新的分支与目标模型联合训练,但在推理或部署阶段会作为其私有模块被模型拥有者从模型中移除。在所有权验证阶段,再将私有的护照识别分支添加回目标模型,以进行所有权验证。大量实验验证了该方法在图像识别和3D点云识别任务中的有效性。2.抗窃取攻击的黑盒模型水印窃取攻击指即使目标模型以应用程序接口(即API)的方式进行封装,攻击者仍可以通过不断访问模型API的方式,来获得大量高质量的标注数据,进而在有监督学习方式下训练自己的替代模型,达到窃取目标模型功能的目的。现有的白盒模型水印方法很难抵抗模型窃取攻击,只有少数黑盒模型水印考虑了窃取攻击问题,但是都只关心分类模型,缺少对价值更高的图像处理模型的研究。为此,本文提出了一个新的模型水印框架,用于保护更具价值的图像处理模型。具体来说,在目标模型之后添加了一个特殊的与原始任务无关的模块,使原始模型的输出中嵌入一个统一的、不可见的水印。当攻击者进行窃取攻击时,攻击者训练得到的替代模型的输出中也将含有此水印,原始模型的拥有者可以借此证实所有权归属。为了增强水印提取端的提取能力,进一步设计了两阶段训练策略。实验表明该方法能够抵抗不同网络结构和目标函数下的模型窃取攻击。除了保护深度模型的版权,该方法也可以用于珍贵的模型训练数据的版权保护。3.抗自适应攻击的黑盒模型水印自适应攻击指攻击者可以在了解模型水印方法的前提下进行针对性攻击,进而使模型版权认证失败。以常见的基于触发后门的黑盒模型水印方法为例,攻击者可以通过异常检测或者数据预处理的方式检测触发模式或擦除后门,从而破坏水印的验证。本文发现在此类自适应攻击下,大多数模型水印方法都不鲁棒。为了增强模型水印在此类自适应攻击下的鲁棒性,本文提出了一种鲁棒且隐蔽的触发后门生成方法。具体来说,该方法首先提取载体图像的图像结构,并将水印信息嵌入到这些结构区域,从而生成触发模式。由于图像结构可以在数据预处理过程中保持其语义性不变,因此这种触发模式对数据预处理具有强鲁棒性。之后,本文利用深度网络将这种触发模式嵌入到载体图像中实现隐蔽性以躲避异常检测。通过大量实验,本文证明了所提出的触发后门生成方法适用于不同的数据集和网络结构,而且基于此的黑盒模型水印方法可以灵活地应用到单用户认证和多用户认证等不同的场景。4.抗多重攻击的黑盒模型水印在上述研究的基础上,本文进一步针对具有高商业价值的图像处理模型,提出了抗多重攻击的黑盒模型水印方法,解决在窃取攻击和自适应攻击的多重攻击下的模型水印鲁棒性问题。首先,通过分析多重攻击下的模型水印鲁棒性,本文发现先前模型水印算法使用统一的不可见空域水印,其本质是建立“整体图像一致性”。然而,当攻击者在替代模型训练期间使用一些常见的自适应攻击,如数据预处理时,这种“整体图像一致性”会被破坏,从而使所有权认证失败。为了解决这个问题,本文提出了一种新的水印设计,即基于“结构一致性”的水印设计,并在此基础上提出了一种新的基于结构对齐的模型水印算法。具体来说,嵌入的水印与载体图像的物理结构(如图像边缘或语义区域)对齐。实验结果表明,该方法能够同时抵抗模型窃取攻击和自适应攻击。此外,对于不同的图像处理任务,该方法可以灵活地使用不同的物理结构。