一种基于抽样确定泛化区间的K_匿名算法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zht336
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现行的K_匿名算法在设计属性值的泛化层次结构时,为图简便,往往忽略属性值的分布特征,而仅以机械的方式来确定其泛化域。当数据集内某些属性的值在一个较小区间里以高频度出现时,就可能会造成发布集的部分等价类内出现大量记录聚集的现象,使得算法在信息可用性方面存在较大的可优化空间。本文针对该问题,提出一种新的K_匿名算法--DIGS算法。算法基于抽样技术,根据对样本分析所得结果来获取总体中敏感关联属性的值泛化区间,以自顶向下的方式来确定这些属性的泛化层次结构。文章以匿名化的时间为划分依据,分别给出DIGS算法在静态匿名和动态匿名这两个过程中的应用方法。在静态匿名中,利用统计学和抽样领域的相关技术,通过分析样本来确定属性的最终泛化区间,以提高发布集的信息可用性;而在动态匿名中,利用所提出的几个类结构对象来管理发布集和抑制集,当源数据集在数据发布后发生变动时,该机制可实现匿名表的快速更新。本文的创新点有:准标识符属性中敏感关联特性的提出,用以提高匿名表中数据精度的DIGS算法,支持算法运行的(itv,hid)--个性化匿名模型,自顶向下的泛化层次结构设计等。这些创新点的提出不仅为K_匿名领域起到了推进作用,而且也为将来在隐私保护方面的研究提供了新思路。仿真实验的结果表明,DIGS算法与传统的K_匿名方法Datafly算法相比,信息损失度显著下降。在源数据集容量和K参数值较大时,其损失度的下降比率接近50%。
其他文献
测试和调试是保证软件质量的重要方法,目前,许多重要的测试和调试方法均以执行距离的度量为基础,然而现有的基于执行距离度量的调试和回归测试研究尚存在许多问题。在调试方面,基
数据挖掘技术是多种学科相结合的产物,它集合了数据库技术、人工智能、机器学习等多学科发展成果,是一种理论性和应用性都很强的技术。作为一门多学科综合应用技术,此项技术
社交网络分析、网络舆情发现等应用发展迅速,这些应用所基于的图结构规模也越来越大,在对图结构的研究中,对亿万个顶点级别的大规模图的处理能力的需求愈加迫切。因为如今图的规
WLAN无线网络覆盖设计的重要理论基础之一是室内无线信道的传播模型,在满足性能指标的要求下,还需考虑特定的外部电磁环境、用户分布、现场施工条件等诸多因素。因为目前在此
随着P2P网络技术的迅速发展和广泛应用以及移动网络环境的日趋成熟,互联网中的P2P网络技术已经开始向无线和移动设备扩展,并将在无线移动条件下获得较为深入的使用和发展。分布
浮雕是雕塑与绘画结合的产物,浮雕形式多样,从商代青铜器表面装饰纹,到汉代的画像石、画像砖,以及后来的碑刻、牌匾等,已经成为中国传统文化中的瑰宝。近年来,浮雕在城市美化环境中
近年来,数据挖掘引起了信息产业界的极大关注。其主要原因是随着信息技术和互联网的快速发展,在各个应用领域的数据库中储存了大量可以广泛使用的数据,并且迫切需要将这些数据转
互联网的迅速发展以及在各行各业中的广泛应用使人们深刻体会到了信息时代所带来的创造力和便捷。然而,伴随着网络数据爆炸式的增长,病毒以及各种恶意入侵攻击也变得越来越多,网
随着数据的爆炸性增长和数据重要性的不断增加,传统的存储体系结构已经不能满足数据存储的需求。SAN存储体系已经被广泛的研究和使用。iSCSI协议融合了SCSI协议和TCP/IP协议,
数据融合方法对于提升入侵检测模型的性能具有至关重要的作用,是当前网络安全领域中研究的热点之一。本文对数据融合方法进行了研究,提出了一种基于粗糙集和支持向量机的理论为