论文部分内容阅读
在网络信息时代的飞跃发展下,数据发布使数据挖掘和信息共享变得更加便捷,然而数据发布在为各行各业的人士提供方便的同时也伴随着大量敏感数据泄露问题。如何让发布的数据既有较高可用性又能保护这些敏感信息不被泄露,这个问题已成为数据发布隐私保护领域的重要课题。本文重点对敏感属性数据发布的隐私保护方法进行研究。主要工作和创新如下:(1)数据发布中隐私保护模型和隐私攻击方式研究:首先,分析引起隐私数据泄露的常见攻击方式并通过例子进行阐述。然后研究现有的典型隐私保护模型和应用场景,并分析这些模型的优缺点。此外,总结了隐私保护方法中信息度量的相关原则。(2)单维敏感属性(SSA)隐私保护方法研究:在数据发布中,针对相似性攻击造成的单维敏感属性隐私泄露问题,本文给出了面向敏感值和敏感程度同时保护的(SD,K)-anonymity模型。该模型引入敏感属性测度的概念,结合分类树知识对敏感属性进行敏感程度衡量。将敏感值之间的相似程度进行量化,通过量化值实现敏感属性程度划分,最终使等价类中属性值不仅含有敏感值的多样性还包括敏感程度的多样性。另外,根据该模型设计对应算法。通过仿真实验分析得出:本文提出的单维敏感属性保护模型可以有效减少敏感程度攻击记录次数,降低隐私泄露风险,平衡了少量信息损失和执行时间问题,更好地保护用户的敏感属性。(3)多维敏感属性(MSA)隐私保护方法研究:针对多维敏感属性之间映射关系产生的连锁攻击泄露问题,本文给出了主敏感属性半约束(LI,L2)-diversity模型,该模型引入统计学思想,对等价类中主敏感属性对应的敏感值进行统计发布,以此切断与其他维敏感属性的一一对应关系,同时结合多维桶思想提出主敏感属性候选集,设计出改进的实现算法MP+HC(L1,L2)-diversity。经过试验表明,该算法与多维桶分组算法相比较,隐匿率较低,时间消耗方面有少量增加。整体上,该模型在牺牲较少时间的情况下有效保护了多敏感属性隐私信息,并提高了数据有效性。(4)面向电子病历匿名化数据系统的设计:针对电子病历数据存在的隐私安全问题,以本文提出的算法为基础,初步设计了面向电子病历匿名化数据发布系统。