数据发布环境下的K-匿名隐私保护方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:xtinxtin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代,人们积极探索如何及时有效地从信息的海洋中获取有用的知识。数据发布作为数据交换和共享的一种有效方式已被许多机构和组织采用。但是,数据发布也带来了个人隐私以及其它敏感信息泄露的风险。隐私保护已经成为数据库安全领域研究工作的一个热点研究课题。K-匿名是在数据发布环境下实现隐私保护的一种重要技术。本文在总结K-匿名研究现状的基础上,针对K-匿名算法的工作如下:   ⑴在对一个数据表进行K匿名化时,必须在保证隐私信息安全的基础上减少匿名化造成的信息损失。由于高度泛化的属性值的信息含量少,所以,应该在被泛化的单元数量不大量增加的情况下,减少高度泛化的属性出现的数量。提出了一种基于最小泛化高度和的近似算法,该算法根据所有准标识符属性的最小泛化高度和确定元组集合的一个划分,然后再对划分中的每个子集进行匿名化处理。通过减少信息含量少的高度泛化的属性值数量来减少信息的损失。实验表明,基于最小泛化高度和的K-匿名算法能够有效减少在由于匿名化造成的信息损失。   ⑵本文提出了一种评价K-匿名算法信息损失程度的度量标准。以被隐匿单元的数量为基础,综合考虑因泛化高度的增加而造成的信息损失,将泛化高度指数引入信息损失的度量中,提出了信息损失度的概念。该度量标准能够更加客观的评价K-匿名算法对微数据进行匿名化所造成的信息损失。   ⑶基于最小泛化高度和的K-匿名近似算法在元组集合的子集中寻找一个较好的划分,当元组的数量较大的时候,这种方法的时空复杂度呈级数级增长。针对该算法的时空复杂度高等不足和聚类算法自身的优势,文中提出了一种基于聚类的K-匿名算法。该算法以信息损失度作为距离的定义,在减少了信息损失的同时,有效的提高了K-匿名化的时空效率和实用性。
其他文献
数据交互业务的迅猛发展,对传输数据海量化和数据交互软件间的互操作性提出了要求。VoIP单纯的语音业务已经不能满足人们的通信需要,而业务是通信网络发展的驱动力。通信网络
随着智能手机不断普及,交通模式识别已经成为情景计算的热门研究领域。作为理解用户移动性的核心组成部分,准确识别不同的交通模式,将对许多研究领域产生重要影响。首先,用户的交
在分布式系统应用领域,传统的分布式应用体系结构大都从自身需求出发,使用各种不同的技术构成相互独立的紧耦合的封闭式系统,它们相互之间缺乏兼容性、有效的互操作性以及重用性
由于XML具有自描述性和可扩展性等特点,能够满足WEB上对数据描述和存储的需求,因而使得XML正在成为Web上数据表示和交换的事实上的标准。随着XML格式数据的快速增长和广泛应
随着计算机技术和网络技术的迅猛发展,数字音乐信息的数量在急剧增加,海量的音乐数据已经成为现实。同时,网络音乐是互联网应用的基本模式之一,而音乐检索是网络音乐服务的最主要
软件功能在不断增强的同时,软件的庞杂程度也在提高,这样就无可避免的带来软件漏洞。软件漏洞攻击带来的巨大经济损失,迫切需要我们对各种漏洞攻击的方式进行剖析,从而深刻理解攻
网络已经逐渐深入到经济生活的各行各业。网络的发展同时也促进了分布式技术的发展。从分布计算到网格再到现在的云计算,每一次变革都对社会的发展产生巨大影响。分布式系统良
随着IP网络的迅速普及和相关技术的进步,VoIP技术不断发展并被广泛应用。依赖VoIP技术和IP网络,企业就可以构建自己的通信系统,为企业内部提供通信服务。公共交换电话网络因
嵌入式实时技术和人机交互技术是当今世界的两大热门技术,已经被广泛应用在工业控制、交通管理、环境监测等民用领域,同时在武器装备信息化等军事领域也得到了重要的应用。而
学位
作为计算复杂性的一个重要分支,判定树复杂性从上世纪70年代开始就受到了广泛的关注,并且被发现和其他的理论计算机方向,比如通信复杂性,电路复杂性,布尔函数分析等有着深刻的联系