论文部分内容阅读
在信息时代,人们积极探索如何及时有效地从信息的海洋中获取有用的知识。数据发布作为数据交换和共享的一种有效方式已被许多机构和组织采用。但是,数据发布也带来了个人隐私以及其它敏感信息泄露的风险。隐私保护已经成为数据库安全领域研究工作的一个热点研究课题。K-匿名是在数据发布环境下实现隐私保护的一种重要技术。本文在总结K-匿名研究现状的基础上,针对K-匿名算法的工作如下:
⑴在对一个数据表进行K匿名化时,必须在保证隐私信息安全的基础上减少匿名化造成的信息损失。由于高度泛化的属性值的信息含量少,所以,应该在被泛化的单元数量不大量增加的情况下,减少高度泛化的属性出现的数量。提出了一种基于最小泛化高度和的近似算法,该算法根据所有准标识符属性的最小泛化高度和确定元组集合的一个划分,然后再对划分中的每个子集进行匿名化处理。通过减少信息含量少的高度泛化的属性值数量来减少信息的损失。实验表明,基于最小泛化高度和的K-匿名算法能够有效减少在由于匿名化造成的信息损失。
⑵本文提出了一种评价K-匿名算法信息损失程度的度量标准。以被隐匿单元的数量为基础,综合考虑因泛化高度的增加而造成的信息损失,将泛化高度指数引入信息损失的度量中,提出了信息损失度的概念。该度量标准能够更加客观的评价K-匿名算法对微数据进行匿名化所造成的信息损失。
⑶基于最小泛化高度和的K-匿名近似算法在元组集合的子集中寻找一个较好的划分,当元组的数量较大的时候,这种方法的时空复杂度呈级数级增长。针对该算法的时空复杂度高等不足和聚类算法自身的优势,文中提出了一种基于聚类的K-匿名算法。该算法以信息损失度作为距离的定义,在减少了信息损失的同时,有效的提高了K-匿名化的时空效率和实用性。