论文部分内容阅读
频繁项集挖掘是一项基本的数据挖掘任务,并且在关联规则算法中也发挥着重要的作用。然而在挖掘过程很有可能将用户的个人信息泄露,从而给用户造成了一定的损失。近几年,将差分隐私保护模型应用到频繁项集挖掘是一种较为常见且可靠的保护方式,其中大多数论文是针对中心化差分隐私提出的而较少的论文将本地化差分隐私应用到频繁项集挖掘。本地化差分隐私的优势在于用户在客户端先将原始数据进行扰动,再将扰动后的数据发送给第三方服务器,这样就可以防止第三方服务器将用户数据泄露的问题,进而提高用户数据的保护程度。目前而言,还没有一个完整的框架能够将本地化差分隐私应用于频繁项集挖掘任务中,并且存在挖掘过程通信代价较高以及挖掘结果的精确度较低的问题。为了解决以上问题,本文提出了相对应的解决方案:(1)提出了一个完整的将本地化差分隐私应用于频繁项集挖掘的方法,并且适用于用户数据类型较为复杂的情况。该框架用户首先将原始数据利用位图编码将其映射为0和1的二进制串,针对用户多属性的情况提出了阈值随机扰动(Threshold Random Response,TRR)算法实现了对不同的属性选择最佳的扰动方式使得数据的可用性最好。用户首先将扰动后的数据发送给第三方服务器,服务器对收集后的数据进行无偏估计,然后再使用FP-Tree进行频繁项集挖掘。最后通过实验验证了该框架的可行性,以及TRR算法优于之前存在的频繁项集挖掘扰动算法,TRR在相同的扰动程度下得到的结果更加精确。(2)提出了一种满足本地化差分隐私的哈达玛响应(Hadamard Response,HR)算法并应用于频繁项集的挖掘过程。该算法利用了哈达玛矩阵的方式将用户数据进行映射和存储,适当增加了用户输出可能的取值范围以及将映射后的字符串进行均匀采样。如果用户的阈值为6),则通信代价由(6))减少到(7)2)6))并且结果的精确度也得到了一定的提高。最后通过实验将哈达玛响应算法与之前的频繁项集挖掘扰动算法进行了对比,结果发现哈达玛响应算法的通信代价最低并且结果的可用性也较高。