论文部分内容阅读
随着信息技术的大规模应用,个人数据的收集、利用、公开甚至出售达到了前所未有的程度,这使得其中的个人隐私问题日益突出,对隐私数据的保护也正获得越来越多的关注。数据发布过程中,如何在保护个人隐私不被泄露的同时,提供尽可能详细和高精度的数据以供研究和分析使用,即数据发布中的隐私保护方法研究成为近年来学术界的一个研究热点。
K-匿名模型(k-anonymity)是数据发布环境下保护数据隐私的一种重要方法。如何针对不同的数据集合理选取k值以及防止针对敏感属性的同质攻击及背景知识攻击是目前k-匿名方法面临的主要挑战。
本文在现有工作基础上,通过对现有k-匿名方法的深入分析研究,提出了一种优化的k-匿名方法,该方法可以有效的对个体的身份及隐私属性进行保护。主要成果包括:
1、设计了一种基于多维数据模型的k-匿名约束检验方法。通过上卷(Roll up)、下钻(Drill down)等操作,快速高效的检测k-匿名约束,并自动发现K的最优取值,实现隐私保护的最大化和信息损失的最小化两者间的最佳平衡。
2、给出了微数据(Microdata)发布中敏感属性泄露的形式化定义,并设计了相应的敏感属性保护算法,通过防止敏感属性在等价类内的不均衡分布,有效的避免了同质攻击和背景知识攻击。
3、综合考虑隐私保护程度和信息损失程度两个方面,提出了数据发布中隐私保护方法的评价体系,并给出了各自的量化指标及其计算方法。
4、设计并实现了基于优化k-匿名化方法的数据发布系统原型,实验结果表明该方法能够确保较小的信息损失的前提下,实现对隐私的较好保护。