论文部分内容阅读
人类已经步入一个信息技术高速发展的时代,网络数据量也跟着迅速增加。数据背后深藏着大量更重要的信息。通过对数据进行深层次的分析,寻找数据内部之间的关联、规则,能给人们带来巨大的利益。正是这样的需求,数据挖掘技术得到了快速发展。但是挖掘数据的同时,人们的隐私很有可能被泄露。针对这一网络安全中的信息内容安全,隐私保护数据发布技术被提出并备受研究学者的关注。K-匿名作为隐私保护数据发布技术的基础,由于在同一个等价类里至少有K个记录,保证等价类里记录与其他至少K-1条记录不可区分,从而使身份被确任的概率不超过1/K,可以有效防止链接攻击。基于全域泛化的K-匿名模型是常见的K-匿名模型,但是它的信息损失比较大。本文基于聚类算法,提出基于聚类的K-匿名、L-多样性算法,选择尽量相似的数据加入同一个聚集,并要求聚集满足K-成员聚类。然后重新聚类那些不符合L-多样性的聚集,以此来抵御同质攻击。实验结果表明,该算法可以有效抵御同质攻击并能减少数据表的信息损失。但是该算法并未考虑记录的敏感属性,如果同属一类敏感属性或是高敏感属性的记录在同一个等价类里,该数据表可能遭受相似攻击或是高敏感属性推测攻击。所以围绕记录的敏感属性,提出基于敏感属性分布的聚类匿名算法,让数据表按照敏感属性分布重新排序,选择高敏感与同属一个类的属性记录优先加入聚集。这里提出敏感属性聚集覆盖率概念,只有符合这个分布的记录才可以加入,并且采取每次只加一个记录的聚类算法,优先考虑记录敏感属性隐私保护,其次才是信息损失。实验结果表明,虽然信息损失比基于聚类的K-匿名、L-多样性算法多,但是该算法确实能抵御相似攻击或是高敏感属性推测攻击,并且信息损失比基于全域泛化的K-匿名模型少。