面向众包数据库的隐私保护技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ninghong0319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众包数据库是一种利用众包平台将人类智慧和机器相结合,以解决传统关系数据库难以处理的查询任务的新型数据库。其核心思想是将查询及相应数据集以众包任务的形式发布到互联网,并最终交给大众网民,利用人类智慧来解决。然而包含隐私信息的数据集若不做任何处理就发送给大众网民,则可能造成隐私信息的泄漏。隐私问题在传统数据库领域已有多年的研究,其中数据匿名技术已在数据发布等实际应用中证明了其有效性。然而现有的匿名技术难以简单地应用于众包数据库,首先,众包数据库通常规模较大且分布式地存储于不同节点中,现有算法难以高效地处理这种大规模、分布式数据;其次,现有算法会造成任务相关的信息损失量过大,导致任务完成质量降低。为提高众包任务的完成质量,基于空间分割的Two-Phase Partition匿名算法通过抽样技术保留更多的任务相关信息,提高匿名数据的可用性。第一阶段Pre-Partition,以样本坐标为候选分割点,对空间做全域分割,根据真实值设计估值函数,筛选最优分割点集合。第二阶段Further-Partition,以第一阶段的输出为候选分割点,对空间做基于kd-tree的本地分割,再根据得到的子空间边界对数据做替换操作,完成数据匿名化。为高效地处理大规模、分布式众包数据库,基于MapReduce的并行匿名框架,实现了对Two-Phase Partition算法的并行化。该框架采用哈希技术将原数据集重新划分为多个子数据集,分别对其做匿名处理后再将其整合正完整的匿名数据集。实验表明,与现有算法相比,单机版Two-Phase Partition算法在查询正确率上提高了20%以上,且随着样本比例的增大,查询正确率增加。利用并行匿名框架实现Two-Phase Partition算法的并行化后,查询正确率略低于单机版算法,但降低幅度在5%以内,且在执行效率上可以实现随数据集大小的线性增长。因此该并行匿名方案适合于解决大规模、分布式众包数据库的隐私问题。
其他文献
身体控制游戏是一种利用玩家运动和动作来设计交互的新电脑游戏。由于身体控制游戏与以往电脑游戏有很大不同,因此在市场上取得了极大成功。最近几年,身体控制游戏得到广泛的
随着Web技术的不断发展,Web应用程序以丰富的功能和强大的交互性等优点越来越受人们的青睐,随之而来针对它的攻击数量也日益剧增。其中,XSS攻击是Web应用程序中数量最多的攻
虚拟化技术正在被广泛地应用于企业数据中心、高性能计算、云计算等环境中。在这样的一些环境中,虚拟机网络通信的性能是影响上层应用性能一个关键的因素,虚拟机的网络通信存
科研资源共享计划(e-Science)是一个全球性的计划,旨在实现各个科研领域的合作,使用云计算的思想来解决e-Science上的资源共享问题越来越受到重视。在e-Science平台上,存在着
多序列比对是目前生物信息领域研究的重要课题之一,在基因识别、蛋白质结构预测等领域有着广泛的应用。由于问题本身所固有的复杂性,至今还没有一个令人满意的算法,同时随着
现代化的通信手段使人与人之间信息沟通的广度、频度以及便捷性都有了大幅度的提升,人们把不同的数据存在电脑、手机等多个不同的设备上,人们需要把在不同设备上的数据保持一
随着因特网和多媒体技术的快速发展,数字化产品得到了广泛的传播,同时也给盗版带来了更多的可乘之机,使得多媒体的版权保护变得更加重要。数字指纹是一种版权保护技术,该技术
随着计算机技术和网络技术的飞速发展,大量个人信息被政府部门、商业机构等存储或发布。这些信息中含有许多与个人相关的隐私信息,虽然信息的高度共享给人们带来巨大的便利,
随着嵌入式技术的发展,用户越来越希望能对嵌入式产品中的数据进行更有效的管理。嵌入式数据库是一个有效的数据管理工具,但由于嵌入式数据库系统的资源有限,其系统的运行效
随着互联网的发展,对内网中重要电子文档保护的要求也越来越高,基于传统密码学的信息安全手段已经不能满足实际应用的需求。数字水印和数字指纹技术能够将个人信息和特定的行