论文部分内容阅读
网络时代,人们可以轻易地收集大量的包含个人隐私信息的数据。在将这些数据发布以进行科学研究或者数据分析前,需要对这些数据进行匿名处理以防止个人敏感信息泄露。如何防止具有一定背景知识的攻击者从发布数据中以较高的概率推导出受害者记录的敏感属性值,同时又尽可能地保留大量个体记录的统计信息(也即减少信息损失或保留数据效用)是隐私保护的热点问题。现有的基于?-多样性隐私保护原则的隐私保护模型及其衍生模型,能阻止攻击者在已知受害者的非敏感属性值的情况下,不能以高于1/?的概率获知受害者的敏感属性值,但还不能抵制具有更多背景知识攻击者的攻击;并且现有的满足?-多样性隐私保护原则的数据匿名处理方法会引起具有较多的信息损失。因此进一步提高基于?-多样性的隐私保护方法的安全性以及减少数据匿名造成的信息损失具有重要意义。 现有隐私保护方法在生成满足?-多样性隐私保护原则的数据过程中,会造成较多的记录敏感属性值与非敏感属性(组合)值间对应关系损失。针对这一问题,构造数据划分优化规则,设计对数据进行两级划分的方法:先基于词典和各非敏感属性与敏感属性相关性排序的划分方法生成初始划分;然后对初始划分进行精细划分,使得在精细划分后生成的数据块中各记录的敏感属性值各不相同,且各数据块中的记录数大于并尽可能地接近?。这样所得到的满足?-多样性隐私保护原则的发布数据具有较少的敏感属性值与非敏感属性值之间对应关系的损失。为衡量匿名处理造成的敏感属性值与非敏感属性值对应关系损失,给出了量化方式。在真实数据集上的实验评估表明,该方法能减少记录敏感属性值与非敏感属性值间对应关系损失。 通过引入具有独立特征的?-多样性隐私保护原则,整合随机划分、扰动和概化等匿名方法,构造出了具有独立特征的?-多样性原则的隐私保护模型。基于该模型的发布数据中个体通过其准标识属性值链接到其真实敏感属性值的概率不超过1/?,同时这一链接过程是相互独立的。基于该模型生成的数据由若干匿名记录块组成,各块由至少k个记录概化后的准标识属性值和一个至少由?个不同的敏感属性值的集合构成;每一块的敏感属性值由其中记录的真实敏感属性值和随机个数的、随机选择的、满足一定条件的敏感属性值构成。在满足该模型安全性要求的前提下,为尽可能减少匿名处理造成的对应关系损失,给出了数据划分应遵循的三条规则;结合现有划分方法,给出改进的、满足这三条规则的数据划分方法和模型实现方法。在真实数据集上对该模型实现方法的有效性进行了验证,结果表明现有方法相比,该方法能有效减少敏感属性值与非敏感属性值间对应关系损失。 针对上述方法生成的、具有独立特征?-多样性的数据不能保留原始数据集中各敏感属性值出现的频次问题,设计了一种噪音添加方法:每个匿名记录的敏感属性值是一个由其真实敏感属性值和?-1个按照一定方式随机选择的噪音值构成的集合。该方法在匿名数据中保留了各敏感属性值出现的频次。在真实数据集上验证了该噪音添加方法的有效性。 针对?-差分隐私保护模型不能用于隐藏个体记录敏感属性值和很难确定参数?值等问题,给出零-差分隐私保护模型,该模型要求:若攻击者在得到发布数据前没有以高于1/?的概率推知受害者真实敏感属性值,则得到发布数据后也不可能以高于1/?的概率获知受害者的真实敏感属性值。在噪音添加方法的基础上,设计了一种满足零-差分隐私保护模型要求和?-多样性隐私保护原则的数据匿名方法。对该匿名方法的安全性和保留敏感属性值与非敏感属性值间对应关系的有效性进行了理论分析,并在真实数据集上对该方法在计数查询上的错误率与现有方法进行了对比实验,结果表明该方法有较低的查询错误率。