论文部分内容阅读
数据挖掘的发展使人们从海量数据中获取有用的知识成为可能。微数据指区别于统计数据的个体数据,它是数据采集与发布的基本单位。随着人们对微数据中个体隐私信息的日益关注,对这些数据进行挖掘也带来了“保护隐私”与“挖掘知识”间的冲突。如何保护微数据发布中的个体隐私,已成为数据库和信息安全领域的研究热点。 目前隐私保护微数据发布研究主要集中在匿名性隐私保护策略研究方面,偏重于对数据隐私的保护,多数针对计数查询等应用,少数针对挖掘任务的隐藏方法也只适用于关联规则发现及分类挖掘,不适用于聚类应用。聚类挖掘按照个体数据间的相异性将数据划分成簇,聚类过程严重依赖于个体数据间的相异性,而数据隐藏通过对原始个体数据取值的修改实现对微数据隐私保护,这种修改将以较大的概率造成数据间相异性的改变,聚类挖掘与数据隐藏的冲突导致面向聚类的数据隐藏发布有别于面向其它数据应用的隐藏发布。 论文工作针对已有的面向聚类隐藏方法存在难以兼顾隐私保护强度和聚类可用性的不足,对面向聚类的微数据隐藏发布技术进行研究。主要工作如下: 1)深入分析面向聚类微数据隐藏发布领域相关隐私保护技术的特点,以及数据隐私安全性和聚类可用性的度量方法等。 2)提出了基于邻域相关性的扰动方法NCDP,NCDP采用数据点间邻域相关集作为衡量数据点邻域关系的标准,通过分析数据点邻域的平衡性以及与点的邻域亲密集,在邻域不平衡时除去亲密集中可能的局部噪声点,向每个邻域亲密点进行一定长度的平移,得到扰动后的数据点,实现对保护数据隐私和维持聚类可用性的兼顾。 3)提出了基于保邻域隐藏的扰动方法VecREP,通过分析数据点k邻域组成结构,引入能保持数据点邻域组成稳定的安全邻域定义。进一步基于向量偏移与合成思想,提出能有效保持k邻域内数据分布特征的等价置换弧定义。对任意数据点,采用随机选取位于其安全邻域内等价置换弧上数据点替换的策略实现隐藏。 理论分析及实验证明,NCDP和VecREP方法能有效兼顾隐藏后数据的聚类可用性和隐私安全性。