一种基于信息熵聚类的K-匿名化算法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:and113
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,隐私保护已逐渐成为数据发布领域中备受关注的问题。数据匿名化技术是实现隐私保护的主要途径,其中,K-匿名模型是最有效、最为常用的一种经典匿名模型。K-匿名模型要求发布的匿名数据表中任意一条数据记录都有其他k-1条记录与之完全相同,从而能够有效地避免链接攻击。目前大多数K-匿名算法存在以下两方面问题:一,算法难以在数据可用性和执行效率这两者之间达到平衡;二,在匿名算法追求数据划分精度以提高数据可用性的同时,忽略了对数据的隐私保护,使数据的安全性降低,从而加大了隐私泄露的风险。针对这两方面问题,本文提出一种基于信息熵聚类的K-匿名算法——EBKC算法,旨在保证匿名数据可用性的基础上,提高数据的安全性和算法的执行效率,从而达到匿名数据可用性、安全性和算法执行效率三方面的平衡。本文首先对K-匿名的相关理论与技术进行了研究,提出了等价类“直径”的概念和最大直径阈值这个参数,以及基于此参数的聚类准则。本文还引入了信息熵的思想,并在此基础上提出了基于熵的等价类划分方法。此外,本文对数据的可用性度量方式和数据的安全性度量方式进行了研究,提出了等价类熵和等价类平均熵的概念,并采用等价类平均熵来作为衡量数据安全性的标准。经对比实验结果表明,该算法可行性好,其总体信息损失在可接受的范围内,算法的执行效率以及数据安全性都得到了提高,因此,该算法具有一定的实用性。
其他文献
近年来,随着互联网的快速发展,互联网已经成为人们之间进行交互的重要平台,从而产生一种基于信息的社会网络,与传统社会网络相比,在基于信息的社会网络中人们的交互方式和信
随着Internet应用的普及以及信息的飞速增长,越来越多的企业或政府组织开始采用企业竞争情报系统来收集、分析和管理他们所需的Web情报信息。这就对企业竞争情报系统中的关键
随着网络时代的发展,Internet已成为重要的基础信息设施,越来越多的设备需要接入Internet,但目前嵌入式微处理器接入Internet的解决方案却有很多种。论文详述了根据系统设备特点
GASOR(GeostatisticalAnalysisSystemOfReservoir,储层地质统计分析系统)系统是西安石油大学软件研究所经过十多年研制开发出来的一种油藏描述软件。GASOR系统主要用于油气田
随着互联网技术的发展,一方面,对等网络的提出彻底颠覆了传统的客户机/服务器模式,为网络上新的应用提供了一个更新颖的拓扑结构;另一方面,“网格”概念的提出为互联网上的服务提
随着入侵事件的日益猖獗,人们发现只从防御的角度构造安全系统是不够的。入侵检测技术是继“防火墙”、“数据加密”等传统安全保护措施后新一代的安全保障技术,它对计算机和网
高性能计算系统现在越来越多采用将许多计算节点高速互连的集群形式实现,随着集群系统的规模不断扩大,其发生故障的次数也以指数增加,系统的容错性和自我修复能力正变得极其
车辆牌照识别系统目前得到了广泛的应用,对交通智能管理具有重要的意义。而车牌字符识别作为其中关键的环节也成为了目前的研究热点,它综合了图像处理,模式识别以及机器学习
三维重构是目前图像处理领域的研究热点,属于多学科交叉的研究课题,涉及到计算机图形学,图像处理等多种技术,在制造业、虚拟现实、建筑、医学、文物保护、电影特技制作等领域
随着因特网实时性业务应用的高速增长,IP网络的QoS(QualityofService,服务质量)路由问题已成为当今网络通信领域的一个研究热点。流量工程作为实现网络负载均衡,优化网络性能的