论文部分内容阅读
随着计算机处理能力、存储技术以及网络技术的快速发展,极大地提高了信息电子化的程度,使信息共享变得简单、方便。信息的高度共享给人们带来巨大的便利同时,个人隐私信息的泄漏现象也屡见不鲜,特别是通过挖掘不同机构发布的数据信息所造成的个人隐私泄露,引起了人们对信息共享的恐慌。虽然数据发布机构通常采取一定的技术手段隐藏用户敏感属性,但是通过在多个公开数据源间进行连接操作往往会导致意想不到的隐私信息泄漏问题,信息共享中隐私保护的目标是在保证私有的敏感信息不被泄漏的前提下,实现有效的信息共享。近年来,这方面的研究已成为数据库安全的一个重要方向。
论文通过对各种匿名模型及匿名化技术的研究和分析后,指出K-ANONYMITY模型和L-DIVERSITY存在的安全漏洞以及常用的匿名化技术的不足,并提出了一种新的数据发布算法,该算法能够有效应对当前数据发布算法的不足,论文的主要研究工作如下:
现有的数据发布隐私保护技术在匿名化过程中会过多地损失数据信息,当前,某些使用交换分组技术的算法因为采用存在安全缺陷的匿名模型又存在泄漏用户隐私信息的风险。针对上述问题,论文提出了一种基于有损连接并采用T-CLOSENESS匿名模型的数据发布算法,该算法首先根据T-CLOSENESS匿名模型产生等价组,然后采用交换技术产生面向用户的发布数据。
针对现有生成T-CLOSENESS匿名等价组所采用的抽象和其他技术所存在的计算复杂、准确性差、且有失一般性的问题,本文根据T-CLOSENESS匿名等价组敏感属性与整体敏感属性要求一致的特点,采用遗传算法来产生敏感属性值的一个优化组合,并在产生等价组时,综合考察算法执行时间和数据安全性,采用更为灵活的执行策略。
实验结果表明与传统的数据发布算法相比,本文提出的算法能够有效的抵御链接攻击、背景知识攻击以及属性泄漏攻击等,由于采用真实数据发布,因此它能够保留较多的数据信息,在实际的连接查询中能够得到接近实际值的结;在算法效率上,由于采用改进的遗传算法,其执行时间也控制在合理范围内。