基于匿名的隐私保护方法研究

来源 :哈尔滨工程大学 | 被引量 : 1次 | 上传用户:cyfzyzclwhzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,伴随着信息技术和互联网技术的迅猛发展,社会各行业及领域需要收集和分析的数据也迅速增长,这些庞大数据背后所包含的知识是医学探索、经济发展以及理论研究的宝贵资源,人们希望从这些海量并且不断在高速增长的数据中找到潜在的规则及其商业模式,挖掘出数据真正的价值。然而,在实现这些需求的同时可能会牵涉到个人的隐私信息,由此引发了对数据发布中的隐私保护问题的研究。为了保护个体的隐私信息不泄露,需对数据发布中的技术和方法进行研究,使得发布的数据既能保护其隐私性又能保持较高的数据可用性,以实现隐私保护与数据可用性间的折衷平衡。另外,由于不同类型的数据所面临的隐私泄露问题不尽相同,因此,本文立足于隐私保护中所面临的各种泄露问题,在保护数据可用性的前提下,对不同类型数据的隐私匿名方法进行了全面的研究。  首先,针对分类型敏感属性的隐私保护问题,在传统t-closeness模型的基础上,对其采用的EMD距离进行改进,由于EMD距离没有考虑等价类与数据表间敏感属性分布稳定性的问题,在分布间稳定差异过大时,会大大提高隐私泄露的风险,由此提出了一种EMD距离与KL散度结合的距离度量标准。同时根据分类型敏感属性的层次树结构,对数据表进行桶分组划分,然后提出一种基于敏感属性值划分的t-closeness原则,采用自顶向下和自底向上的贪心思想获取满足该原则的最小等价类大小,运用k-近邻的思想来选取准标识符属性值相似的元组生成等价类。最后实验结果表明,提出的模型在牺牲少量时间的前提下减少了信息损失,能在有效地保护敏感信息不泄露的同时保持较高的数据效用。  其次,针对将分类型敏感属性的隐私保护方法直接运用于数值型敏感属性的隐私保护上不能保证隐私信息安全性的局限,在考虑数值型属性自身特性的基础上,对面向数值型敏感属性的隐私匿名方法进行了研究。近邻泄露是数值型敏感属性隐私保护问题中通常会出现的泄露风险之一,当分组中个体敏感值差异过小时,攻击者能以较高置信度推理出个体的敏感值处于某个较小的区间范围内,由此带来了近邻泄露风险。针对此类泄露风险,提出一种面向近邻泄露的数值型敏感属性隐私保护方法,该方法首先在保护准标识符属性和数值型敏感属性内在关系的前提下,将数值型敏感属性进行离散化划分;然后,提出一种面向近邻泄露的隐私保护原则,并且设计了最大邻域优先算法来实现该原则。实验结果表明,提出的方法能在有效地保护数值型敏感信息不泄露的同时保持较高的数据效用,并且保护了数据间的关系。  再次,针对多维敏感属性数据在发布过程中所面临的隐私泄露问题,对于传统的l-多样性进行改进,给出一种l-maximum原则用以满足多敏感属性l-多样性要求,该原则控制了等价类中敏感值出现的频率,避免了概率攻击的风险,并且通过理论证明了该原则的安全性;然后,为了保护属性间的相关性以及避免基于有损分解方法中所带来的属性泄露问题,提出一种基于属性相关性的隐私保护方法,采用平均互信息作为属性间的依赖度,根据属性间的依赖度对属性进行划分,使得高依赖度的属性在同一簇中;最后设计并实现了基于多维敏感属性的l-maximum算法。实验结果表明,提出的模型在保护隐私不泄露的同时,减少了元组的隐匿率,并且保护了数据间的关系。  最后,针对数据流具有持续时间长、变化迅速、快速到达等不同于静态数据而特有的性质,以及静态数据上的隐私匿名方法直接用于数据流上往往不能达到较好执行效率的局限,提出一种基于时间密度的数据流匿名算法。首先,采用k-中心点思想对元组进行聚类,对于信息损失满足要求的簇输出;考虑数据流的强时态性,提出时间权重和时间密度概念,当已发布簇的个数达到上限时,删除时间密度最小的簇,以此来保证已发布簇的可重用性。此外,为了保持较高的执行效率,算法对数据采用单遍扫描,以实现数据流的高效匿名。通过实验分析表明提出的方法能保持较高的效率和较好的数据效用。
其他文献
随着社会的发展,水资源短缺日益严重,节省水资源并实现水资源的回收利用是缓解水资源紧张的必然途径。中水是从污水中处理出来的低质量水,可用于工业冷却循环、绿化喷灌、道
成功的大规模系统被称为遗留系统。这些系统具有巨大的商业价值。但是因为它们的体积庞大,并且缺乏文档信息,所以难于维护。其中相似性代码是困扰工程师们的一大问题。在一个
随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。指代消解是自然语言处理的重点和难点之一,在文本摘要、
随着互联网的发展,网络安全成为了一个急待解决的重要问题。蜜罐技术是一种采用了主动防御的网络安全技术,部署蜜罐的目的就是吸引攻击者来攻击,捕获攻击者在蜜罐系统上的活
多目标优化是优化问题的主要研究领域之一,现实中的优化问题大多具备多目标的特征,并且这些目标往往是相互冲突的。不同于单目标优化问题有唯一的最优解,多目标优化问题的最
近年来,无线网络成为自动化领域中迅速发展的热点之一,也是工业自动化产品未来的新增长点。显而易见,在配置、安装、修改和扩展等方面,无线网络的成本都低于有线网络。工业无
人口基础信息的共享建设是社会公民信用体系的一部分,它通过在公安人口信息的基础上整合劳动和社会保障,国税,地税等部门与人口信息相关的资源,实现人口信息的集中管理与充分
无线传感器网络是由部署在观测环境内的大量微型传感器节点通过无线通信方式自组成网络。这些节点协作地实时监测、感知和采集环境或监测对象的信息,并将信息以自组织单跳或
当今社会是信息的社会,信息已成为人类的宝贵资源。近年来,Internet以惊人的速度在全球发展,并在人们日常生活中扮演着越来越重要的角色。网络已深入到社会生活的方方面面,在
随着人类基因组计划的发展,DNA微阵列技术作为一项革命性的技术应运而生。它可以自动、快速、高效的检测成千上万个基因的表达情况,通过分析所产生的基因表达数据,可以在分子