论文部分内容阅读
每时每刻通过各类APP产生的大量数据,造就了大数据时代的超速发展。要想发现数据背后隐藏的价值,就需要在数据发布之后通过数据挖掘来发现。但与此同时也增加了个人隐私泄露的风险。因此,在数据发布之前进行个体的隐私保护就显得十分有必要。而事务型数据作为这些数据中一类,由于具有稀疏多维的特点,在进行隐私保护时具有一定的难度。因此,本文通过对已有针对事务型数据发布的隐私保护关键技术进行研究,从匿名模型和差分隐私模型两种隐私保护技术上展开探究,并解决差分隐私算法中存在的查询不一致问题。经过隐私保护技术发布的事务型数据,不仅要保证数据的可用性,还要保证数据个体的隐私安全性。本文的主要工作为:(1)在现有基于匿名模型的事务型数据发布隐私保护研究基础上,为明确界定事务数据表中的敏感项目与非敏感项目,提出针对事务型数据隐私保护算法(c,k)-匿名。先利用泛化规则将事务记录的每个项目泛化,生成项目记录泛化表,构造计数树,然后根据隐私需求,设定阈值c的值,利用计数树明确区分出敏感项目与非敏感项目,使非敏感项目满足k-匿名,保证一个等价类中具有相同非敏感项目的记录个数不少于k个,以达到保护数据个体敏感项目的作用。该算法有效保护了发布数据中数据个体的敏感项目泄露的问题。最后使用事务型数据集,证明了(c,k)-匿名算法的可用性。(2)在现有基于差分隐私模型的事务型数据发布隐私保护研究基础上,为提高较大区间的查询精确度,提出基于k-叉区间树的差分隐私事务型数据发布算法DPTDP。先将事务数据表划分为多个集合,每个集合用其划分意义下的计数值进行描述,将所有的计数值根据区间大小不同映射到一棵k-叉区间树上,通过给较大区间分配较少的隐私预算,给较小的区间分配较多的隐私预算,然后对每个节点值添加符合Laplace分布的噪声值,从加噪后的树中导出直方图发布数据进行数据发布。用事务型数据集进行验证,证明该算法提高了查询精确度,实现对事务型数据发布的差分隐私保护。(3)针对基于差分隐私模型的事务型数据发布隐私保护算法中存在区间查询不一致的问题,提出一致性调整算法CA。先将一组子集相交的区间查询映射到一棵满k-叉区间树上,其中同一层节点上的区间值不相交,再向树中每个节点添加符合Laplace分布的随机噪声,得到一棵差分隐私满k-叉区间树。将树进行一致性调整后得到满足一致性约束的满k-叉区间树,遍历调整后的满k-叉区间树,得到满足差分隐私区间查询一致性的数据。通过实验证明,CA算法实现了事务型数据发布差分隐私的查询一致性约束。本文研究事务型数据发布的隐私保护关键技术,包括匿名模型和差分隐私模型。对现有的k ~m-匿名算法和DPAV算法进行详细的分析和改进,并针对区间查询的不一致现象进行了一致性调整,通过证明和实验分析:本文提出针对事务型数据发布的算法具有实用性。