论文部分内容阅读
近几年来,伴随着信息技术和互联网技术的迅猛发展,社会各行业及领域需要收集和分析的数据也迅速增长,这些庞大数据背后所包含的知识是医学探索、经济发展以及理论研究的宝贵资源,人们希望从这些海量并且不断在高速增长的数据中找到潜在的规则及其商业模式,挖掘出数据真正的价值。然而,在实现这些需求的同时可能会牵涉到个人的隐私信息,由此引发了对数据发布中的隐私保护问题的研究。为了保护个体的隐私信息不泄露,需对数据发布中的技术和方法进行研究,使得发布的数据既能保护其隐私性又能保持较高的数据可用性,以实现隐私保护与数据可用性间的折衷平衡。另外,由于不同类型的数据所面临的隐私泄露问题不尽相同,因此,本文立足于隐私保护中所面临的各种泄露问题,在保护数据可用性的前提下,对不同类型数据的隐私匿名方法进行了全面的研究。 首先,针对分类型敏感属性的隐私保护问题,在传统t-closeness模型的基础上,对其采用的EMD距离进行改进,由于EMD距离没有考虑等价类与数据表间敏感属性分布稳定性的问题,在分布间稳定差异过大时,会大大提高隐私泄露的风险,由此提出了一种EMD距离与KL散度结合的距离度量标准。同时根据分类型敏感属性的层次树结构,对数据表进行桶分组划分,然后提出一种基于敏感属性值划分的t-closeness原则,采用自顶向下和自底向上的贪心思想获取满足该原则的最小等价类大小,运用k-近邻的思想来选取准标识符属性值相似的元组生成等价类。最后实验结果表明,提出的模型在牺牲少量时间的前提下减少了信息损失,能在有效地保护敏感信息不泄露的同时保持较高的数据效用。 其次,针对将分类型敏感属性的隐私保护方法直接运用于数值型敏感属性的隐私保护上不能保证隐私信息安全性的局限,在考虑数值型属性自身特性的基础上,对面向数值型敏感属性的隐私匿名方法进行了研究。近邻泄露是数值型敏感属性隐私保护问题中通常会出现的泄露风险之一,当分组中个体敏感值差异过小时,攻击者能以较高置信度推理出个体的敏感值处于某个较小的区间范围内,由此带来了近邻泄露风险。针对此类泄露风险,提出一种面向近邻泄露的数值型敏感属性隐私保护方法,该方法首先在保护准标识符属性和数值型敏感属性内在关系的前提下,将数值型敏感属性进行离散化划分;然后,提出一种面向近邻泄露的隐私保护原则,并且设计了最大邻域优先算法来实现该原则。实验结果表明,提出的方法能在有效地保护数值型敏感信息不泄露的同时保持较高的数据效用,并且保护了数据间的关系。 再次,针对多维敏感属性数据在发布过程中所面临的隐私泄露问题,对于传统的l-多样性进行改进,给出一种l-maximum原则用以满足多敏感属性l-多样性要求,该原则控制了等价类中敏感值出现的频率,避免了概率攻击的风险,并且通过理论证明了该原则的安全性;然后,为了保护属性间的相关性以及避免基于有损分解方法中所带来的属性泄露问题,提出一种基于属性相关性的隐私保护方法,采用平均互信息作为属性间的依赖度,根据属性间的依赖度对属性进行划分,使得高依赖度的属性在同一簇中;最后设计并实现了基于多维敏感属性的l-maximum算法。实验结果表明,提出的模型在保护隐私不泄露的同时,减少了元组的隐匿率,并且保护了数据间的关系。 最后,针对数据流具有持续时间长、变化迅速、快速到达等不同于静态数据而特有的性质,以及静态数据上的隐私匿名方法直接用于数据流上往往不能达到较好执行效率的局限,提出一种基于时间密度的数据流匿名算法。首先,采用k-中心点思想对元组进行聚类,对于信息损失满足要求的簇输出;考虑数据流的强时态性,提出时间权重和时间密度概念,当已发布簇的个数达到上限时,删除时间密度最小的簇,以此来保证已发布簇的可重用性。此外,为了保持较高的执行效率,算法对数据采用单遍扫描,以实现数据流的高效匿名。通过实验分析表明提出的方法能保持较高的效率和较好的数据效用。