集值数据发布中多级敏感模型及隐私保护方法研究

来源 :广西师范大学 | 被引量 : 1次 | 上传用户:fqdml
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的普及,电子商务、在线社会网络、云计算等基于互联网的应用也得到迅速发展,网络上正在快速聚集多类型、海量的数据资源。正是这些海量数据为人类进行科学研究、商业规划、经济分析、社会群体分析和决策等研究提供数据支撑,数据的利用体现出巨大的科学、经济和政治价值。在数据共享或利益的驱动下,数据的公开发布成为一个关键性需求,然而这些数据中往往包含个体的隐私信息,直接发布会造成隐私泄露,因此隐私保护是数据共享的基础。集值数据作为数据发布中一种重要的数据类型,它包含电子商务数据、患者医疗数据、用户上网点击流等。这类数据具有稀疏高维,数量大等特点,没有固定的准标识符,记录中的敏感属性存在多样性。因此传统的面向关系型数据的隐私保护方法并不适用于集值数据。面向集值数据的匿名化技术研究主要关注项目集的匿名,目前的研究有k-匿名,(h,k,p)匿名以及ρ-uncertainty等。k匿名方法通过分组泛化使得组内记录完全相同,数据失真严重,且当组内记录均包含相同敏感值时,该方法无法抵御同质攻击。而(h,k,p)匿名和ρ-uncertainty方法没有考虑集值数据中敏感项的敏感程度与隐私保护程度对应关系而采用统一的隐私保护方法,这会导致部分数据由于达不到匿名要求而被过分抑制,降低了数据的可用性。本文针对上述存在的问题展开一系列研究,首先对集值数据的隐私保护问题进行了深入的分析,然后详细讨论了现有隐私模型存在的缺陷,并给出具体解决方案。最后为了防止身份和敏感属性泄露,提出了新的隐私保护模型并设计了相应的实现算法,更好地平衡了数据的可用性和隐私保护强度。本文的研究成果主要包含以下几个方面:(1)首先对集值数据隐私保护的研究背景和现状进行了分析,详细介绍了集值数据km-匿名,k-匿名,(h,k,p)匿名以及ρ-uncertainty等方法,并指出这些匿名方法存在的缺陷。其中km-匿名方法假设攻击者的背景知识是m,通过自顶向下泛化保证包含m个项目的记录至少有k条,然而实际应用中攻击者的背景知识是很难确定的。k-匿名模型在此基础上改进,假设攻击者的背景知识是任意的,通过构造k条相同记录使得攻击者无法辨别其中任意一条,从而达到隐私保护的目的。但集值数据中很多记录并不包含敏感信息,发布出去不会造成隐私泄露,采用k-匿名方法由于“过保护”会造成大量有用信息丢失,且该方法无法抵御同质攻击。(h,k,p)匿名以及ρ-uncertain ty方法的主要缺陷是未考虑不同敏感值之间敏感性的差异化。(2)根据集值数据的特点,本文提出为敏感性分级的方法,该方法给所有敏感值指定敏感等级,并为每个敏感等级设置不同的隐私阈值。在此基础上,设计了p,k,ρ)隐私保护模型。在该模型中,假设攻击者的背景知识只是部分非敏感信息p,对这部分信息的处理方法是采用聚类,使其满足k匿名,同时为不同的敏感值指定敏感等级,然后根据敏感等级的不同等级逐条检测是否有敏感项超过指定阈值,对超过阈值的敏感项进行抑制。(p,k,ρ)隐私保护模型结合k-匿名和p-uncertainty方法的思想,改进它们的不足,考虑敏感项分布对数据敏感度的影响,一定程度上能更好的提高数据的效用性,同时该模型能很好的防止链接攻击并降低敏感属性泄露的风险。(3)基于以上隐私模型,本文设计了一种基于贪心策略的聚类更新(p,k,ρ)匿名算法,该算法按隐私限制集p的支持度进行排序,以信息损失作为度量标准,每次选择支持度最大的p,从中选择泛化信息损失最小的两个项目进行聚类,直到所有p满足k匿名。同时检测是否有敏感关联规则超过阈值ρ,对超过阈值的敏感项目进行抑制。最后对该算法的复杂度进行了分析,证明本文提出算法的可行性。(4)本文在3个真实的集值数据集上进行了实验评估,从数据信息损失量、算法运行时间等方面进行度量,实验结果表明本文提出的方法相比之前提出的k-匿名,(h,k,p)匿名等,在满足隐私要求的同时,能更好的保持数据的原始分布,有效降低了信息损失,提高了数据的可用性。
其他文献
现代远程教育是构筑知识经济时代人们终身学习的一种新型教育模式。基于Web的远程教学平台能够充分发挥信息技术在教学中的优势,能够体现以学生为主体,教师为主导的教学理念,
知识表示和知识抽取是人工智能领域的重要内容。术语关系获取是知识抽取的一个重要研究方向。术语是指代实体的词语,术语间的关系表达实体间的关系。术语关系获取是指从结构
网络应用的迅速发展使得企业级客户对软件的功能、易用性、安全性等提出了更高的要求,企业级Web应用程序成为一个采用多种第三方组件的、复杂的分布式应用系统,在其使用和维
随着网络技术的快速发展、Internet在人们生活中的广泛应用,以及软件系统日益复杂化和应用领域的日趋广泛化,人们对软件系统的灵活性、拓展性的要求也在不断的提高,这使得软
无线通信作为人们获取、交流信息的技术手段,应用越来越广泛。但随着其应用领域的不断拓展,无线通信中所面临的语音问题也日益突出。例如在车用免持电话、电视电话会议等场合
设备侧代理系统在整个网络管理系统中处于基础地位,它是监控网络系统运行的源,其应用价值越来越明显的体现出来。本文从网管规范和具体应用要求出发,提出了一个网管系统设备
蓝牙技术是移动通信技术和计算机网络技术结合的产物,它的出现提供了一种开放的无线语音和数据通信标准。随着短距离无线通信在当今社会中越来越广泛的应用,无线个人区域网成
嵌入式系统的广泛应用需要良好的软件系统支撑。随着嵌入式系统的深入发展,系统的可扩展能力已成为一个基本的需求,迫切需要一种机制能在运行状态下配置系统,也就是系统在运
安全配置的语句决定了网络安全设备的行为。而配置语句表述了人们对网络的控制意图,即控制语义。访问控制常部署于防火墙、路由器、入侵检测系统等网络安全设备中。若一台设备
计算机视觉既是工程领域,也是科学领域中一个富有挑战性的重要研究方向。近年来,随着图像获取技术的进步和视觉监控与安全方面的迫切需求,视频图像的处理和理解逐渐成为计算机视