论文部分内容阅读
在当今科技和信息紧密联系的时代,大量的信息以数据发布的形式实现彼此的信息共享。从安全角度考虑常常需要对其中的敏感信息加以隐藏,因此面向数据发布的支持隐私保护的数据安全技术越来越受到人们的重视。数据安全中的K-匿名化技术是保护数据隐私的重要途径之一。当前K-匿名化方法主要通过全域概括来实现发布数据的K-匿名化处理,该方法效率低,并且具有很大的信息损失。此外,已有的K-匿名算法没有考虑多约束的情况。针对以上问题,重点研究基于不同匿名约束的K-匿名化技术。
分析了匿名化约束和K-匿名化方法的特点,针对单约束和多约束,分别提出了不同的K-匿名化方法。对于单约束,提出了基于元组概括过滤思想的单约束K-匿名化算法Classfly,即在K-匿名化过程中符合约束的元组不需参与进一步的概括,从而提高了K-匿名化的精度和处理效率。
针对多约束,提出了基于联合约束K-匿名化相应元组子集的post-Classfly算法和基于概括过滤最大匿名元组子集的NM-Classfly和FTB-Classfly算法。在NM-Classfly和FTB-Classfly算法的K-匿名化过程中,符合独立约束子集的最大匿名元组子集不参与进一步的概括,从而提高了多约束K-匿名化后的数据精度和执行效率。提出一种数据结构频繁表(Frequent Table),使得与NM-Classfly算法相比,FTB-Classfly算法在获得相同精度发布数据的同时具有更高的执行效率。进而,提出低选择度约束优先(PCLS)原则,可以更好地改善FTB-Classfly和NM-Classfly算法的效率。
大量实验和分析表明,提出的K-匿名化技术在信息损失和处理效率方面均优于现有的K-匿名方法。单约束K-匿名化算法Classny不论在执行时间还是K-匿名化后数据的精度上都优于Datafly算法。在多约束K-匿名中,NM-Classfly和FTB-Classfly算法的精度是最大的。另外,采用频繁表有效地提高了多约束K-匿名化的执行效率。实验还验证了低选择度约束优先(PCLS)原则的有效性。