论文部分内容阅读
随着数字化、信息化时代的不断推进,许多数据收集机构需要将所收集原始数据(例如医疗数据、金融数据等)发布出去,以便于数据分析、挖掘,能够从发布的数据中产生更为有效地决策支持,然而,发布的原始数据中涉及了大量的个人敏感信息,直接发布数据会致使个人隐私的严重泄露。因此,如何为数据研究者提供大量有效信息的同时,利用隐私技术保证原始数据的隐私安全变得极具挑战。为了解决面向数据发布的隐私数据泄露问题,本文对数据发布中的隐私保护关键技术开展了以下研究:(1)对面向数据发布的隐私保护研究背景、传统的隐私保护模型进行了概述。介绍了差分隐私的定义及其实现机制,分析了当前数据发布的差分隐私保护技术及其研究进展。(2)针对数据融合发布过程中,数据隐私泄露的问题,在个性化的隐私保护的数据发布环境中,提出一种基于差分隐私保护的数据分级融合发布机制HDFPM,解决当前数据融合发布机制无法抵御背景知识攻击的缺点。该机制对用户及付费情况进行分级,对数据属性的重要度进行划分,在数据融合过程中结合差分隐私保护技术,利用分类树及改进算法进行数据融合,按照重要程度设置不同的隐私预算,合理分配分级的差分隐私预算,在融合数据集中加入与其对应的Laplace噪声,实现融合数据隐私保护的分级化,保证了融合发布后的数据具有较好的质量和价值,实验结果表明,HDFPM不仅可以实现数据的有效融合,还可以保护敏感数据。(3)针对高维数据发布中“维度灾难”所导致发布结果可用性不佳的问题,提出满足差分隐私保护的基于主成分分析优化的高维数据发布保护方法PPDP-PCAO,较好地解决由于维度灾难所引入大量噪声的缺陷。通过引入属性重要度的概念,优化PCA算法,并利用改进的方法对数据降维,减少时间和空间的开销;并在数据发布中引入了基于互信息的评价机制,通过设置不同数量的主成分来评价生成的数据,确定最佳主成分数量。由于高维数据中可能存在多个敏感属性,传统的分配隐私预算的方法不能满足个性化隐私保护的需求。该方法引入敏感偏好度的概念,结合最优匹配理论,设计了敏感性属性分级保护策略。实验结果表明,PPDP-PCAO不仅确保了已发布数据集的隐私性,而且显著地提高了数据的准确性和实用性。