面向主成分分析的差分隐私数据发布算法

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:jingyu0722
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的不断发展,各种信息系统存储的数据越来越丰富,增加了数据分析处理的难度。主成分分析是一种标准的数据分析方法,可用来降低数据维度。更具体地说,它通过线性变换将原始高维数据投影到由数据协方差矩阵的特征向量组成的主成分空间来获得低维数据。主成分分析简化数据使得数据更易使用的同时降低了算法的计算开销。例如人脸识别时对图像进行降维,只保留某些关键像素可以使识别速度大大提升。金融数据和医疗数据里通常包含许多隐私信息,如果直接使用机器学习或数据挖掘算法分析数据,算法的输出将会泄露隐私信息,对个人造成潜在威胁。因此,如何在获取有价值信息的同时保护数据隐私已经成为数据挖掘领域亟待解决的问题之一。差分隐私作为当前有效的隐私保护机制之一,通过添加噪声的方式向查询结果和分析结果中加入适量噪声实现对隐私数据的保护。差分隐私以坚实的数学理论为支撑,通过参数量化隐私保护水平,使得不同参数处理下的数据集所提供的隐私保护水平具有可比较性,弥补了传统隐私保护模型的缺陷。差分隐私可以保证不管攻击者拥有多强大的背景知识仍然无法推断出某条特定的数据记录的信息。实现差分隐私保护的主成分分析算法主要有两种思路:输入扰动和输出扰动。输入扰动在计算主成分之前注入噪声扰动,输出扰动则是对算法中间输出结果添加噪声。这两种算法均可以在简化数据的同时保护数据隐私,然而对算法性能的研究却少有人涉足。针对这一问题,论文通过拉普拉斯机制设计并实现两种提供差分隐私保护的主成分分析算法LIP和LOP,其中LIP算法基于输入扰动,LOP算法基于输出扰动。设立两个可用性指标噪声大小和近似误差,从理论证明和实验验证角度对比两种算法的安全性和可用性,发现在相同隐私预算下,算法LIP提供更高的可用性,说明基于输入扰动的差分隐私主成分分析算法性能更好。针对差分隐私主成分分析的实际效用性问题和支持向量机隐私性问题,提出两种算法DPPCASVM和PCA-DPSVM,这两种算法均可以在实现快速分类的同时降低数据集中样本泄露的风险,但在可用性上DPPCA-SVM分类准确率更高。最后,通过在三个数据集上的实验,验证了论文提出的两个优质算法LIP和DPPCA-SVM相比于其他现有的算法来说,能够更好的平衡隐私保护水平和分类准确率。
其他文献
连接查询技术往往需要很高的时间开销。随着数据量加大,连接查询会因其时间开销过大而失去实用性。现实的数据集通常是包含大量重复元组的脏数据集,会造成查询结果包含重复元
随着大数据时代的到来,互联网迎来新的发展,无论对于企业还是个人,数据信息都越来越重要,保护数据信息的安全,在发生意外的时候保证充足的容灾备份成为当下越来越重要的研究方向。由于数据量的飞速增长,需要通过迅速、高效的方法把源数据同步到备份服务器中。采用常规同步的方法在面对数据量较大的时候,有占用存储空间多,占用网络带宽高,同步效率低下等问题,所以本文从现实考虑出发,提出以数据分块算法和布隆过滤器为基础
近年来,国家多次进行普法行动意图让全国人民知法懂法,以此来降低犯罪率。全靠人力来普法将是一个漫长而艰难的过程,目前很多涉案人员了解案情都是要通过求助专业法律人员,这
人类获取信息的80%以上来自视觉,大脑视觉系统具有效率高和鲁棒性强等优势,如何理解和模拟大脑视觉信息加工方式是神经科学与计算机科学交叉领域的热点问题。功能磁共振成像(functional Magnetic Resonance Imaging,f MRI)因其良好的时空间分辨率和无损成像等优点已成为研究人脑的主要手段之一。基于f MRI建立视觉编码模型是以大脑视觉感知机制为依据,模拟大脑视觉信息处理
用户识别问题是数据分析和挖掘中的重要问题之一,旨在实现对关联到某些资源信息的人的身份进行验证。通常情况下,研究人员利用与用户相关的数据资源,提取可以作为用户身份标识的特征,通过特征降维、选择等操作后,使用相似性度量方法对用户的特征进行相似度匹配,输出相似度最大的结果作为识别结果。用户识别问题在个性化推荐、信息取证和隐私保护等领域具有广泛的应用和重要的研究价值。在用户识别问题研究中,特征的选择和构造
当前,信息过载问题严重困扰着每一个人。在我们的日常生活以及互联网行业中,推荐系统对于解决信息过载问题起着不可或缺的作用。在实际应用中,几乎每一条数据都带有时间标签,数据间的时间跨度是一个不可忽视的问题。因此时序性推荐系统受到广泛关注。直观地讲,数据越旧,推荐时的时间权重就越小,因此常规研究始终使用遗忘曲线来建模时间因子。但是,这些研究仅将时间作为一个公共属性,而不是维度。用户和项目之间的每次交互行
随着网络技术的不断发展,P2P网络由于其匿名性与开放性的特点而得到了广泛的应用,如文件共享和即时通信。同时这些特性也为P2P网络带来了新的挑战,恶意节点随意的传播非法消息,会对网络的可用性以及用户体验带来负面的影响,并且P2P网络的动态性与分布性也使得节点之间很难进行长期并稳定的交易,目前所提出的信任模型并不能很好的解决P2P网络中存在的交易不可靠、动态网络拓扑等问题,现有的研究成果仍然存在不足,
近年来随着气候变化的加剧,城市化进程的加快,极端降雨频发,洪涝灾害造成了较大的生命财产损失。同时随着计算性能提升和计算方法的改进,雨洪数值模型成为研究洪涝问题的重要
数据作为信息的载体之一,在这个信息爆炸的时代,其重要性不言而喻。图结构数据作为复杂网络的一种描述方式,其研究价值在于复杂网络对这个世界的诸多现象的抽象性以及概括性。提升图结构数据的分析能力,能够更好探究复杂网络中的各类重要特性以及分析诸多现实世界中存在的复杂网络。社区结构是复杂网络的重要特性之一,也是现实世界中诸多复杂网络呈现的特性,其现实应用包括但不限于黑色产业检测、广告精准投放以及社交网络分析
目前全球的数据中心数量已经达到800万座,传统的以交换机为中心的数据中心网络大多是基于树状的三层结构,这样的结构难以满足大规模数据中心的要求,为了满足日益增长的新需求,大量新型数据中心网络结构被提出。其中,BCube网络是一种采用递归定义,能支持数百万量级的服务器,它具有小直径、大容量和高容错性等的优良性质。数据中心网络可能包含数百甚至数千个服务器(结点),但是其中一些服务器可能时常会有故障出现,