论文部分内容阅读
大数据云计算在推动各行各业快速发展的同时,也给个人隐私安全带来了严峻挑战。为了能够更好地推动各行业的快速发展,越来越多数据需要被共享,这些数据中包含了一些较为敏感的隐私信息,若对这些信息不加以任何保护就直接发布将会导致隐私信息的泄露,威胁数据拥有者的生命财产安全,甚至威胁国家的信息安全,因此对数据发布隐私保护技术的研究变得非常重要。目前,针对数据发布的隐私保护方法主要有基于扰乱、基于加密和基于匿名三种形式。本论文通过对现有的基于匿名技术的隐私保护模型进行分析,根据敏感属性个数的多少,提出了针对单敏感属性的匿名隐私保护模型--(αi,k,β)-匿名保护模型和针对多敏感属性的匿名隐私保护模型--Multi-(αi,k,β)-匿名保护模型。本文的主要研究内容如下:1.对目前数据发布隐私保护的三种主流模型进行分析和对比,综合考虑这三种主流模型的优缺点,选择了兼顾实用性与安全性的匿名保护模型作为研究重点,并详细介绍了该模型的研究现状和相关基本知识。2.针对单敏感属性的匿名保护模型进行了研究。(αi,k)-匿名模型的优点是能抵御同质攻击,但是它存在语义相似性攻击的风险。为抵御这种风险,提出了一种可抵御同质攻击和相似性攻击的(αi,k,β)-匿名模型。该模型将敏感属性值进行分级,根据敏感属性值在数据集中的分布,计算出每个级别的约束αi;通过对敏感属性值进行语义分析,构造敏感属性语义层次树,引入等价类相异度约束,用于抵御相似性攻击;同时,为了能尽可能的保留属性之间的相关性和减少泛化损失,将层次分析法运用于计算准标识符属性与敏感属性的相关度当中,并将属性间的相关度应用于泛化损失求解当中,以减少匿名过程的信息泛化损失。实验仿真结果表明,该模型能够有效降低泛化损失,且能够抵御多种攻击模型,对数据具有较高的隐私保护程度。3.针对多敏感属性的匿名保护模型进行了研究。在数据发布的过程中,往往也会有多个敏感属性共同存在的现象,因此对(αi,k,β)匿名保护模型进行了改进,提出了一种适用于多敏感属性隐私保护的Multi-(αi,k,β)匿名保护模型。该模型在构建的过程中为了能够更好地降低泛化损失,利用信息增益法对多敏感属性进行降维处理,既保留了敏感属性之间的关联性,又能够降低泛化损失。同时考虑到在各种属性中存在数值型属性的问题,提出了数值型属性转化为分类型属性的方法,将分类属性代替数值属性应用于属性间关联度的求解,但是在等价类泛化时依旧用数值型属性进行泛化,保留了数值属性与分类属性之间的关联性,且不会增大泛化损失。实验仿真结果表明,该模型适用于多敏感属性的隐私保护情况,能够较好地保留属性之间的相关性,泛化程度较小,且能够抵御多种攻击模型,对数据隐私保护程度较高。