论文部分内容阅读
现行的K_匿名算法在设计属性值的泛化层次结构时,为图简便,往往忽略属性值的分布特征,而仅以机械的方式来确定其泛化域。当数据集内某些属性的值在一个较小区间里以高频度出现时,就可能会造成发布集的部分等价类内出现大量记录聚集的现象,使得算法在信息可用性方面存在较大的可优化空间。本文针对该问题,提出一种新的K_匿名算法--DIGS算法。算法基于抽样技术,根据对样本分析所得结果来获取总体中敏感关联属性的值泛化区间,以自顶向下的方式来确定这些属性的泛化层次结构。文章以匿名化的时间为划分依据,分别给出DIGS算法在静态匿名和动态匿名这两个过程中的应用方法。在静态匿名中,利用统计学和抽样领域的相关技术,通过分析样本来确定属性的最终泛化区间,以提高发布集的信息可用性;而在动态匿名中,利用所提出的几个类结构对象来管理发布集和抑制集,当源数据集在数据发布后发生变动时,该机制可实现匿名表的快速更新。本文的创新点有:准标识符属性中敏感关联特性的提出,用以提高匿名表中数据精度的DIGS算法,支持算法运行的(itv,hid)--个性化匿名模型,自顶向下的泛化层次结构设计等。这些创新点的提出不仅为K_匿名领域起到了推进作用,而且也为将来在隐私保护方面的研究提供了新思路。仿真实验的结果表明,DIGS算法与传统的K_匿名方法Datafly算法相比,信息损失度显著下降。在源数据集容量和K参数值较大时,其损失度的下降比率接近50%。