基于本地化差分隐私的复杂数据频繁项集挖掘研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:adunisrunning
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集挖掘是一项基本的数据挖掘任务,并且在关联规则算法中也发挥着重要的作用。然而在挖掘过程很有可能将用户的个人信息泄露,从而给用户造成了一定的损失。近几年,将差分隐私保护模型应用到频繁项集挖掘是一种较为常见且可靠的保护方式,其中大多数论文是针对中心化差分隐私提出的而较少的论文将本地化差分隐私应用到频繁项集挖掘。本地化差分隐私的优势在于用户在客户端先将原始数据进行扰动,再将扰动后的数据发送给第三方服务器,这样就可以防止第三方服务器将用户数据泄露的问题,进而提高用户数据的保护程度。目前而言,还没有一个完整的框架能够将本地化差分隐私应用于频繁项集挖掘任务中,并且存在挖掘过程通信代价较高以及挖掘结果的精确度较低的问题。为了解决以上问题,本文提出了相对应的解决方案:(1)提出了一个完整的将本地化差分隐私应用于频繁项集挖掘的方法,并且适用于用户数据类型较为复杂的情况。该框架用户首先将原始数据利用位图编码将其映射为0和1的二进制串,针对用户多属性的情况提出了阈值随机扰动(Threshold Random Response,TRR)算法实现了对不同的属性选择最佳的扰动方式使得数据的可用性最好。用户首先将扰动后的数据发送给第三方服务器,服务器对收集后的数据进行无偏估计,然后再使用FP-Tree进行频繁项集挖掘。最后通过实验验证了该框架的可行性,以及TRR算法优于之前存在的频繁项集挖掘扰动算法,TRR在相同的扰动程度下得到的结果更加精确。(2)提出了一种满足本地化差分隐私的哈达玛响应(Hadamard Response,HR)算法并应用于频繁项集的挖掘过程。该算法利用了哈达玛矩阵的方式将用户数据进行映射和存储,适当增加了用户输出可能的取值范围以及将映射后的字符串进行均匀采样。如果用户的阈值为6),则通信代价由(6))减少到(7)2)6))并且结果的精确度也得到了一定的提高。最后通过实验将哈达玛响应算法与之前的频繁项集挖掘扰动算法进行了对比,结果发现哈达玛响应算法的通信代价最低并且结果的可用性也较高。
其他文献
纳米材料因具有独特结构,使其表现出许多特有的性质,这些性质使得纳米材料越来越受到人们的关注。迄今为止,学者们已经开发出诸多制备纳米材料的方法,其中水热法和沉淀法因其
使用传统的多跳通信方式收集物联网(Internet of Things,IoT)系统中IoT设备感知的数据,不仅会降低网络生存期,而且严重影响数据的时效性。部署无人机(Unmanned Aerial Vehicl
在电力系统中,由于感性负荷消耗了无功功率,导致系统的功率因数降低,供电过程中能量损耗增加,系统无法保证优良的电能质量。随着电力系统的快速发展,对电能质量以及电网稳定
中国作为世界上最大的发展中大国,正日益走进世界舞台中央,与世界联系日益紧密。同时,国际局势复杂多变,贸易保护主义、单边主义甚嚣尘上,全球经济产业变革蓄势待发,国际格局
针对采煤机摇臂壳体结构复杂、加工特征多,传统二维图纸指导生产加工方式在零件生产中容易造成制造人员对设计意图理解不完整,从而出现加工失误,延长产品加工周期,导致生产效
射频能量收集技术可以将周围环境中的无线射频能量收集起来,转化为直流电压输出,代替传统的电池,为一些小型的电子设备提供能源。射频能量收集系统中最核心的部分是整流天线
我国是煤炭大国,煤炭行业是最重要的能源支撑,其重要性不言而喻。冲击矿压是一种典型的矿山动力灾害,一旦发生后果极其严重,对于冲击矿压的预测预防就显得极其重要。冲击矿压
湿度传感材料被广泛应用于航空航天、工业农业生产,以及人们的日常生活当中。氧化锌作为一种常用的湿敏材料,具有结晶性较好、易合成等优点,然而传统的氧化锌材料灵敏度较低
DNA具有序列可设计、合成简单、易于改性、生物相容性好等诸多优点,已用于构建多种DNA纳米结构,广泛应用于生物传感、生物成像、生物医药等领域。本文基于DNA自组装技术构建
纳米颗粒流化聚团的内部结构相对复杂,目前缺少对其内部结构的合理描述。本文通过分形理论描述聚团的结构特点,基于分形理论构建纳米聚团结构模型,对聚团内部孔隙率和渗透率