论文部分内容阅读
近年来,随着互联网、数据存储以及计算技术的飞速发展,使得信息的收集与分析变得越来越便捷、完整与精确。然而,这些以信息共享、数据挖掘与知识发现等为目的的数据发布过程往往都伴随着敏感隐私信息的泄露风险,这就引发了对数据发布过程中隐私保护问题的研究,其主要目标是如何在保证数据可用性的前提下,适当损失原始数据所包含的信息来提高发布数据的安全性,从而达到隐私保护与数据可用性之间的良好平衡。另外,考虑到不同数据实体对敏感信息保护程度的不同需求,隐私保护的个性化服务已成为该领域的一个研究热点。本文立足于隐私保护中的个性化服务需求,在保证信息强可用性的前提下,对数据发布中的个性化隐私匿名技术进行了多方面细致的研究。首先,针对不同个体对隐私保护的不同需求,在传统l-多样性的基础上,对敏感属性设置相应的保护属性,提出了一种扩展l-多样性匿名原则,并通过保护属性对敏感属性进行泛化约束来实现个体与敏感值之间关联关系的个性化保护需求,从而形式化地定义了一种面向个体的个性化扩展l-多样性隐私匿名模型。另外,根据l-多样性匿名要求发布等价类中敏感值足够多样化的原则,引入一种逆聚类的思想来实现对发布数据集的等价划分;并在此基础上,研究设计了一种基于逆聚类的个性化隐私匿名算法来实现面向个体的个性化扩展l-多样性隐私匿名模型,并从理论上分析了该算法的正确性和复杂性,最后通过两组不同的仿真实验表明:与传统基于聚类的l-多样性算法相比,基于逆聚类的个性化隐私匿名算法不仅能产生近似的信息损失量以及更小的时间代价,满足扩展l-多样性的匿名要求,而且实现了个性化服务的需求,获得了更有效的隐私保护。其次,针对面向个体的个性化服务在海量数据情形下存在个性化参数设置难的局限性,对面向敏感值的个性化隐私匿名问题进行了研究。在传统(α, k)-匿名原则的研究基础上,引入个性隐私敏感因子,进而计算各敏感值的个性隐私保护需求度,从而实现敏感值的个性化服务,并形式化地定义了一种面向敏感值的个性化(α, k)-匿名模型。另外,针对传统泛化处理过程中各等价类区间边界位置不够准确的缺陷,设计了一种以准标识符属性信息熵为分类准则的属性熵分类算法;并在此基础上,研究设计了一种基于熵分类的个性化隐私匿名算法来实现面向敏感值的个性化(α, k)-匿名模型,并从理论上分析了算法的正确性和复杂性,最后通过两组不同的仿真实验表明:与经典的C4.5、Naive-Bayes、NBTree以及k-nearest neighbor(k=3)等分类算法相比,基于属性熵的分类算法具有更高的分类精度;同时,与传统的(α, k)-匿名方法相比,基于熵分类的个性化隐私匿名方法不仅满足了敏感值的个性化服务,而且能更有效合理地减少数据集的信息损失度。再次,针对将单敏感属性数据集的隐私匿名原则直接应用于多敏感属性数据集上不能保证隐私信息安全性的问题,在考虑敏感值个性化服务需求的基础上,对一类面向多敏感属性的敏感值个性化隐私匿名方法进行了研究。在传统l-多样性原则的研究基础上,引入拓扑空间中的覆盖思想,重新定义了多敏感属性l-多样性原则,并从理论上证明了该定义的正确性和安全性;另外,引入一种基于值域等级划分的个性化定制方案来实现不同敏感值的个性化服务需求,并在此基础上,形式化地定义了一种多敏感属性个性化l-多样性模型。同时,研究设计了一种基于最小选择度优先的个性化隐私匿名算法(MSFMPL-diversity)来实现该多敏感属性个性化l-多样性模型,并从理论上验证了算法的收敛性和局部最优性。最后通过仿真实验表明:在同等条件下,MSFMPL-diversity算法在满足敏感值个性化服务需求的前提下,不仅能产生与MBF算法和MMDCF算法相当的信息隐匿率,而且具有更好的时间性能和鲁棒性。最后,针对同时包含外部更新和内部更新的完全动态数据集的重发布隐私保护问题,对一类具有敏感属性值个性化更新的完全动态数据集重发布隐私匿名方法进行了研究。在完全动态数据集重发布披露风险理论的基础上,引入属性值的个性化转移概率来实现敏感属性更新的个性化服务,并在此基础上,对个性化重发布的披露风险进行了评估;同时,在m-unique原则基础上,提出了一种面向动态数据集重发布的个性化λ-continuity隐私匿名原则;最后,研究设计了一种面向动态数据集重发布的增量型个性化λ-continuity隐私匿名算法(λ-PCRAADD)来实现个性化λ-continuity隐私匿名,并从理论上分析了算法的正确性和复杂性。通过仿真实验表明:在同等条件下,λ-PCRAADD算法在满足敏感属性值个性化更新服务需求的前提下,不仅能产生远小于传统m-invariance算法的聚集查询平均相对错误率,而且具有相当的时间性能和更好的鲁棒性。