论文部分内容阅读
随着互联网技术的普及,电子商务、在线社会网络、云计算等基于互联网的应用也得到迅速发展,网络上正在快速聚集多类型、海量的数据资源。正是这些海量数据为人类进行科学研究、商业规划、经济分析、社会群体分析和决策等研究提供数据支撑,数据的利用体现出巨大的科学、经济和政治价值。在数据共享或利益的驱动下,数据的公开发布成为一个关键性需求,然而这些数据中往往包含个体的隐私信息,直接发布会造成隐私泄露,因此隐私保护是数据共享的基础。集值数据作为数据发布中一种重要的数据类型,它包含电子商务数据、患者医疗数据、用户上网点击流等。这类数据具有稀疏高维,数量大等特点,没有固定的准标识符,记录中的敏感属性存在多样性。因此传统的面向关系型数据的隐私保护方法并不适用于集值数据。面向集值数据的匿名化技术研究主要关注项目集的匿名,目前的研究有k-匿名,(h,k,p)匿名以及ρ-uncertainty等。k匿名方法通过分组泛化使得组内记录完全相同,数据失真严重,且当组内记录均包含相同敏感值时,该方法无法抵御同质攻击。而(h,k,p)匿名和ρ-uncertainty方法没有考虑集值数据中敏感项的敏感程度与隐私保护程度对应关系而采用统一的隐私保护方法,这会导致部分数据由于达不到匿名要求而被过分抑制,降低了数据的可用性。本文针对上述存在的问题展开一系列研究,首先对集值数据的隐私保护问题进行了深入的分析,然后详细讨论了现有隐私模型存在的缺陷,并给出具体解决方案。最后为了防止身份和敏感属性泄露,提出了新的隐私保护模型并设计了相应的实现算法,更好地平衡了数据的可用性和隐私保护强度。本文的研究成果主要包含以下几个方面:(1)首先对集值数据隐私保护的研究背景和现状进行了分析,详细介绍了集值数据km-匿名,k-匿名,(h,k,p)匿名以及ρ-uncertainty等方法,并指出这些匿名方法存在的缺陷。其中km-匿名方法假设攻击者的背景知识是m,通过自顶向下泛化保证包含m个项目的记录至少有k条,然而实际应用中攻击者的背景知识是很难确定的。k-匿名模型在此基础上改进,假设攻击者的背景知识是任意的,通过构造k条相同记录使得攻击者无法辨别其中任意一条,从而达到隐私保护的目的。但集值数据中很多记录并不包含敏感信息,发布出去不会造成隐私泄露,采用k-匿名方法由于“过保护”会造成大量有用信息丢失,且该方法无法抵御同质攻击。(h,k,p)匿名以及ρ-uncertain ty方法的主要缺陷是未考虑不同敏感值之间敏感性的差异化。(2)根据集值数据的特点,本文提出为敏感性分级的方法,该方法给所有敏感值指定敏感等级,并为每个敏感等级设置不同的隐私阈值。在此基础上,设计了p,k,ρ)隐私保护模型。在该模型中,假设攻击者的背景知识只是部分非敏感信息p,对这部分信息的处理方法是采用聚类,使其满足k匿名,同时为不同的敏感值指定敏感等级,然后根据敏感等级的不同等级逐条检测是否有敏感项超过指定阈值,对超过阈值的敏感项进行抑制。(p,k,ρ)隐私保护模型结合k-匿名和p-uncertainty方法的思想,改进它们的不足,考虑敏感项分布对数据敏感度的影响,一定程度上能更好的提高数据的效用性,同时该模型能很好的防止链接攻击并降低敏感属性泄露的风险。(3)基于以上隐私模型,本文设计了一种基于贪心策略的聚类更新(p,k,ρ)匿名算法,该算法按隐私限制集p的支持度进行排序,以信息损失作为度量标准,每次选择支持度最大的p,从中选择泛化信息损失最小的两个项目进行聚类,直到所有p满足k匿名。同时检测是否有敏感关联规则超过阈值ρ,对超过阈值的敏感项目进行抑制。最后对该算法的复杂度进行了分析,证明本文提出算法的可行性。(4)本文在3个真实的集值数据集上进行了实验评估,从数据信息损失量、算法运行时间等方面进行度量,实验结果表明本文提出的方法相比之前提出的k-匿名,(h,k,p)匿名等,在满足隐私要求的同时,能更好的保持数据的原始分布,有效降低了信息损失,提高了数据的可用性。