面向聚类的微数据隐藏发布技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:shizelinli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的发展使人们从海量数据中获取有用的知识成为可能。微数据指区别于统计数据的个体数据,它是数据采集与发布的基本单位。随着人们对微数据中个体隐私信息的日益关注,对这些数据进行挖掘也带来了“保护隐私”与“挖掘知识”间的冲突。如何保护微数据发布中的个体隐私,已成为数据库和信息安全领域的研究热点。  目前隐私保护微数据发布研究主要集中在匿名性隐私保护策略研究方面,偏重于对数据隐私的保护,多数针对计数查询等应用,少数针对挖掘任务的隐藏方法也只适用于关联规则发现及分类挖掘,不适用于聚类应用。聚类挖掘按照个体数据间的相异性将数据划分成簇,聚类过程严重依赖于个体数据间的相异性,而数据隐藏通过对原始个体数据取值的修改实现对微数据隐私保护,这种修改将以较大的概率造成数据间相异性的改变,聚类挖掘与数据隐藏的冲突导致面向聚类的数据隐藏发布有别于面向其它数据应用的隐藏发布。  论文工作针对已有的面向聚类隐藏方法存在难以兼顾隐私保护强度和聚类可用性的不足,对面向聚类的微数据隐藏发布技术进行研究。主要工作如下:  1)深入分析面向聚类微数据隐藏发布领域相关隐私保护技术的特点,以及数据隐私安全性和聚类可用性的度量方法等。  2)提出了基于邻域相关性的扰动方法NCDP,NCDP采用数据点间邻域相关集作为衡量数据点邻域关系的标准,通过分析数据点邻域的平衡性以及与点的邻域亲密集,在邻域不平衡时除去亲密集中可能的局部噪声点,向每个邻域亲密点进行一定长度的平移,得到扰动后的数据点,实现对保护数据隐私和维持聚类可用性的兼顾。  3)提出了基于保邻域隐藏的扰动方法VecREP,通过分析数据点k邻域组成结构,引入能保持数据点邻域组成稳定的安全邻域定义。进一步基于向量偏移与合成思想,提出能有效保持k邻域内数据分布特征的等价置换弧定义。对任意数据点,采用随机选取位于其安全邻域内等价置换弧上数据点替换的策略实现隐藏。  理论分析及实验证明,NCDP和VecREP方法能有效兼顾隐藏后数据的聚类可用性和隐私安全性。
其他文献
随着互联网的不断普及,人们的通信方式也发生了巨大的改变。即时通信,作为一种现代化的通信方式迅速得到了普及,成为了人们在工作和生活中进行交流的一种主要方式。然而,它给人们
近年来,随着进入信息时代,各种数据海量积累起来,远远超出了人力的处理范围,数据迅速膨胀,导致经常出现“数据富有但是知识贫乏”的现象。在这种情况下,数据挖掘技术诞生了,
由于无线传感器网络中节点能力的有限性和网络环境的开放性,实际应用中存在着许多安全问题。数字水印技术作为信息隐藏技术的一个重要分支,可以有效的保证信息的完整性与真实
随着科技与社会的进步,工作流技术在现代企业的管理中发挥了越来越大的作用,企业之间的合作日趋频繁,规模越来越大,这些企业在地理上广域分布且拥有各自独立业务系统,相互之间缺乏
现如今互联网快速的发展,数据与信息迅速的增加,各领域的资源可能无法满足自身需求。为了达到资源的共享,不同安全域之间会采用互操作的方法,从而获取对方领域的权限与资源。虽然
近年来,无线网络通信技术得到了快速的发展,便携式、微型化计算设备迅速普及,基于无线网络的应用和服务在互联网服务中所占的比例逐年增大。越来越多的移动通信用户开始使用具有
随着互联网技术的迅速发展,网格技术也逐渐发展壮大,它是一种针对复杂科学计算领域的分布式计算方法,它仍处在不断发展和变化之中。网格能够集成或共享地理上分布的各种资源,使之
在信息时代人们需要对大量的数据进行处理,去寻找其规律并对其进行运用。分类是数据处理时经常要做的工作,因此分类问题成为机器学习域的一个重要研究内容。支持向量机方法通
近年来随着web数据爆炸式的增长,数亿TB的数据分布在世界上无数的服务器上。传统的数据库管理系统对个人数据管理中存在的异构数据显得无能为力,数据空间这种新的数据管理技
为了研究人类认知的发展过程,需一个与婴儿的生理能力和生态背景相类似的模拟系统,DIVA模型(Directions Into of Articulators)就是这样的系统。DIVA模型是一种关于语音生成