论文部分内容阅读
近年来,学术界针对数据发布中的隐私保护问题已经提出了许多模型和算法,这些模型和算法在不同程度上解决了数据发布中的隐私泄露问题。但是,现有的模型和算法主要是针对分类型敏感属性的隐私保护,而对数值型敏感属性的隐私保护研究很少,并且已有的针对分类型敏感属性隐私保护的模型和算法对数值型敏感属性的隐私保护并不适用。因此,本文在前人研究工作的基础上,对数值型敏感属性在静态发布和动态发布中出现的隐私泄露问题进行研究,并提出相应的隐私保护模型。本文的研究工作主要包括以下内容:
(1)针对数据静态发布中的近邻泄露问题,即:发布数值型敏感属性数据时,因同一等价类中个体的敏感属性值之间差异过小从而导致攻击者能够以较高的概率以及较小的误差推导出目标个体的敏感信息,本文提出一种防止近邻泄露的模型:(εp,l)-anonymity。该模型根据不同的敏感属性值区间设置不同的阈值εi(1≤i≤p)来控制敏感属性值之间的相似度,并采用有损连接的方法对隐私数据进行保护。模型(εp,l)-anonymity克服了传统隐私保护模型采用固定阈值控制敏感属性值之间的相似度的缺点,解决了传统模型因采用泛化的匿名技术所产生的信息可用性较低的问题。理论分析和实验结果均表明该方法可以明显减少近邻泄露,提高信息可用性,增强数据发布的安全性。
(2)针对数据动态发布中,由于不同发布时刻的数据表之间存在一定的关联,攻击者利用这种关联可能会推导出个体的隐私信息,导致隐私泄露的问题,本文提出一种适用于数据动态发布中数值型敏感属性的隐私保护模型——(α,m)-invariance。该模型针对数值型敏感属性具有可量化的特点,提出α相似性的概念,放宽m-不变性的约束条件,在添加伪元组之前,尽可能用新增元组代替已删元组,大大减少了伪元组的数目,而且模型采用的是泛化与有损连接相结合的匿名发布技术(ANGEL)。模型(α-m)-invariance有效克服了目前已有模型在解决数值型敏感属性的隐私保护问题产生的数据损失问题。理论分析和实验结果表明,本文提出的模型在保证良好的隐私保护效果的前提下,能有效提高信息可用性。