基于e-多样性的隐私保护方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：liuhuilei

【摘要】

：

网络时代，人们可以轻易地收集大量的包含个人隐私信息的数据。在将这些数据发布以进行科学研究或者数据分析前，需要对这些数据进行匿名处理以防止个人敏感信息泄露。如何防止具

【作者】

：

田胜利

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2014年期

【关键词】

：

隐私保护数据发布 e-多样性匿名处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网络时代，人们可以轻易地收集大量的包含个人隐私信息的数据。在将这些数据发布以进行科学研究或者数据分析前，需要对这些数据进行匿名处理以防止个人敏感信息泄露。如何防止具有一定背景知识的攻击者从发布数据中以较高的概率推导出受害者记录的敏感属性值，同时又尽可能地保留大量个体记录的统计信息（也即减少信息损失或保留数据效用）是隐私保护的热点问题。现有的基于?-多样性隐私保护原则的隐私保护模型及其衍生模型，能阻止攻击者在已知受害者的非敏感属性值的情况下，不能以高于1/?的概率获知受害者的敏感属性值，但还不能抵制具有更多背景知识攻击者的攻击；并且现有的满足?-多样性隐私保护原则的数据匿名处理方法会引起具有较多的信息损失。因此进一步提高基于?-多样性的隐私保护方法的安全性以及减少数据匿名造成的信息损失具有重要意义。　　现有隐私保护方法在生成满足?-多样性隐私保护原则的数据过程中，会造成较多的记录敏感属性值与非敏感属性（组合）值间对应关系损失。针对这一问题，构造数据划分优化规则，设计对数据进行两级划分的方法：先基于词典和各非敏感属性与敏感属性相关性排序的划分方法生成初始划分；然后对初始划分进行精细划分，使得在精细划分后生成的数据块中各记录的敏感属性值各不相同，且各数据块中的记录数大于并尽可能地接近?。这样所得到的满足?-多样性隐私保护原则的发布数据具有较少的敏感属性值与非敏感属性值之间对应关系的损失。为衡量匿名处理造成的敏感属性值与非敏感属性值对应关系损失，给出了量化方式。在真实数据集上的实验评估表明，该方法能减少记录敏感属性值与非敏感属性值间对应关系损失。　　通过引入具有独立特征的?-多样性隐私保护原则，整合随机划分、扰动和概化等匿名方法，构造出了具有独立特征的?-多样性原则的隐私保护模型。基于该模型的发布数据中个体通过其准标识属性值链接到其真实敏感属性值的概率不超过1/?，同时这一链接过程是相互独立的。基于该模型生成的数据由若干匿名记录块组成，各块由至少k个记录概化后的准标识属性值和一个至少由?个不同的敏感属性值的集合构成；每一块的敏感属性值由其中记录的真实敏感属性值和随机个数的、随机选择的、满足一定条件的敏感属性值构成。在满足该模型安全性要求的前提下，为尽可能减少匿名处理造成的对应关系损失，给出了数据划分应遵循的三条规则；结合现有划分方法，给出改进的、满足这三条规则的数据划分方法和模型实现方法。在真实数据集上对该模型实现方法的有效性进行了验证，结果表明现有方法相比，该方法能有效减少敏感属性值与非敏感属性值间对应关系损失。　　针对上述方法生成的、具有独立特征?-多样性的数据不能保留原始数据集中各敏感属性值出现的频次问题，设计了一种噪音添加方法：每个匿名记录的敏感属性值是一个由其真实敏感属性值和?-1个按照一定方式随机选择的噪音值构成的集合。该方法在匿名数据中保留了各敏感属性值出现的频次。在真实数据集上验证了该噪音添加方法的有效性。　　针对?-差分隐私保护模型不能用于隐藏个体记录敏感属性值和很难确定参数?值等问题，给出零-差分隐私保护模型，该模型要求：若攻击者在得到发布数据前没有以高于1/?的概率推知受害者真实敏感属性值，则得到发布数据后也不可能以高于1/?的概率获知受害者的真实敏感属性值。在噪音添加方法的基础上，设计了一种满足零-差分隐私保护模型要求和?-多样性隐私保护原则的数据匿名方法。对该匿名方法的安全性和保留敏感属性值与非敏感属性值间对应关系的有效性进行了理论分析，并在真实数据集上对该方法在计数查询上的错误率与现有方法进行了对比实验，结果表明该方法有较低的查询错误率。

其他文献

基于Pro/Engineer的建库技术与工具的研究

机械产品设计中,标准件、常用件以及一些相似零件在整个设计中占用很大的比例。对于一些从事专门设备设计和生产的企业来说,开发适合用户自身需求的专用零件库非常必要。本文

学位

零件管理特征描述法参数化设计

多路测量信号扩频传输的DSP系统实现

在测控领域,常需对多路测量信号同时进行传输,但传统的传输方式常受到周围复杂环境的干扰而造成信号失真。利用扩频通信技术的抗干扰特性可提高多路测量信号传输的可靠性,同

学位

扩频通信直扩系统码分复用DSP同步技术

基于用户兴趣的个性化信息推荐系统

Internet技术的发展为人们提供了方便快捷的信息获取手段。面对网络上的海量信息,人们有时往往会感到无所适从。如何为每个用户提供快捷准确,满足个人实际需要的信息,己成为

学位

信息过滤协同过滤内容过滤蚁群算法用户模型用户评价

基于形状的商标图像检索技术研究

随着注册商标数量的急剧增加,在这种超大图像库上实现检索将需要耗费大量的时间和人力。传统的商标图像检索方法存在很多缺陷,包括图像的人工分类耗时、带有主观性、自动化程

学位

基于内容的图像检索形状特征描述符高维索引结构k-近邻查询

求解长方体Packing问题的最大穴度算法

Packing问题大量地出现在机械制造、皮革服装、造船、交通运输、航空航天、大规模集成电路的设计等诸多领域。求解Packing问题在科学研究和生产实践中均有重要意义。典型的长

学位

长方体PackingNP难问题拟人算法最大穴度算法穴度角区占角动作

基于视觉的手势识别技术的研究

基于自然手势的交互方式具有广泛的应用领域,是未来人机交互的主要方式之一。本文的基于视觉的手势识别主要包括:手势分割、手势特征提取、静态手势识别、动态手势识别。其中

学位

手势识别结构特征Zernike 矩椭圆拟合动态时间归整算法

基于Linux的IPv6网络流量测量系统的设计与实现

随着互联网的高速发展，各种新的网络应用不断涌现，网络带宽的需求不断增加。P2P技术为核心的多种应用占用大量网络带宽，网络拥挤不堪，用户希望了解流量构成，识别网络中各种流量。

学位

网络流量测量IPv6网络层分析应用层分析L7-filter

基于约束扩散法匹配的序列图像三维建模研究

随着计算机视觉技术的飞速发展,如何获得富有真实感的场景三维模型日益受到人们的关注。传统基于设备的三维重建方法成本较高,且其使用范围有局限性,因而在实际应用中受到限

学位

三维重建特征匹配匹配扩散三角形约束图像序列

家庭媒体娱乐中心音视频系统的设计与实现

随着数字技术的飞速发展,后PC时代涌现出众多嵌入式多媒体产品,同时,网络的普及又刺激了数字媒体内容的不断增长,数字家庭产业由此进入了高速发展期。在深入分析国内外研究概

学位

数字家庭终端设备家庭媒体娱乐中心嵌入式Linux通用即插即用

DCT域数字水印算法及检测算法研究

数字水印技术作为信息安全技术领域的重要分支,得到了广泛的研究。它通过在不引起人类感知的情况下将一种不可见的标记嵌入到多媒体信息产品中,用以标识原创作者对作品的所有

学位

数字图像水印离散余弦变换矢量量化水印检测

基于e-多样性的隐私保护方法研究

其他学术论文