论文部分内容阅读
随着社会的高速发展,隐私保护技术在数据库的领域越来越受到人们的关注,导致在数据库的应用过程中可能出现大量的隐私泄露问题。例如,某个单位人口统计数据、医院病人的患病记录等,这些信息具有非常重要的研究价值。因为,这些数据中往往包含一些个体的隐私信息,它们的发布和共享将导致个人的隐私泄露。现实中的数据集每时每刻都在变化之中,如果直接把原来的静态数据集的方法直接应用到动态数据集的重发布过程中将会导致大量的隐私信息的泄漏。所以,动态数据集的重发布问题面临着更多的挑战。针对动态数据集下多敏感属性的隐私保护问题,提出了一种改进的算法bucket,该算法能处理关系型数据中的动态数据集数据的增加和删除问题,其核心的思想如下:首先,引入了两个概念,即候选更新集合和伪元组集合,并且设计出两个集合的相应模型,候选更新集合是保证多次发布的原始数据的敏感属性具有不可区分性;伪元组集合是不存在的,引入的目的是保证原始数据隐私保护的要求。其次,继承了“m-不变性”和“多维桶结构”的思想,提出了改进的模型bucket算法,对原始数据进行聚类和泛化处理,查找多次发布的匿名表格之间是否出现隐私泄露情况;如果出现隐私泄漏则在候选集合中查找相似的记录插入,没有相似的记录,则在伪元组中查找一个记录进行插入,并且标记伪元组的数目。这样在动态数据集的重发布时,就能满足数据集的更新问题,达到了动态数据集隐私保护的要求。本文采用某医院的医疗数据为例,对动态数据集的多敏感属性进行研究。全面讨论了已有方法动态数据集多敏感属性重发布过程中可能造成的隐私泄漏问题。提出了改进的bucket算法。实验结果表明,该算法能很好的对关系型数据库进行隐私保护,该算法具有较高的隐私保护度,同时该算法的内存占用率也是很低的。