论文部分内容阅读
数据挖掘技术可以帮助用户从大量的数据中发现有用的未知知识。然而,它的不当使用也可能带来暴露隐私的风险。尤其是当数据需要在不同机构之间共享时,共享数据中可能会包含与数据所有者切身利益相关的敏感知识,如个人的私密信息、商业策略、关系到公司利益的盈利模式、或其他政策不允许公开的敏感知识等。如果数据接收者利用数据挖掘技术从共享数据中发现了这类敏感知识,可能会对数据所有者构成安全威胁。因此,在共享数据之前有必要对其中的敏感知识进行保护,同时尽可能的保障正常挖掘需要。本文主要研究关联规则挖掘中的隐私保护问题,这一领域的研究工作分为两类:一类是对敏感数据本身的保护,另一类是对数据中包含的敏感规则的保护,即关联规则隐藏。本文工作致力于解决与后者相关的问题。对数据中包含的敏感规则进行保护的一般策略是,通过修改部分数据,来降低敏感规则的显著性,使它们从数据挖掘的角度不会被发现。然而,数据修改会产生副作用,包括误隐藏部分非敏感规则,产生原数据库中不存在的虚假规则,以及对原始数据造成一定程度的破坏或扭曲。关联规则隐藏问题的挑战性在于,如何在保护敏感知识的同时,尽可能的减少这些副作用的产生。本文从不同的角度探索了关联规则挖掘中的敏感知识保护问题的解决途径,提出了若干关联规则隐藏的新方法。本文将对这些新提出的方法进行详细描述和讨论分析,并对它们的求解质量进行了实验评测。主要研究内容包括以下几个方面:首先,从多目标优化的角度研究关联规则隐藏问题。现有的大多数关联规则隐藏方法利用问题的某些局部特征降低某一方面的副作用,未能对隐藏过程中产生的各类副作用做全面考虑,这些方法在大多数情况下只能获得问题的局部最优解。并且,不同的副作用之间存在折衷关系,同时最小化会产生冲突,然而这一重要事实却被长期忽视。本文提出了基于多目标优化的隐藏方法EMO-RH,它可在隐藏敏感规则的同时,全面降低伴随的各类副作用,找到问题的全局最优解或近似最优解。实验证实,不同的副作用之间是存在折衷关系的,EMO-RH可以有效的减少各类副作用的产生。EMO-RH鲁棒性好,并且运行一次可以生成多个最优解,反映了优化目标之间的不同程度的折衷关系,用户可以依据自己偏好从中选择一个满意解。为了利用启发式算法计算效率高,可扩展性好的优点,本文提出了一种新的启发式关联规则隐藏方法——Relevance-soring算法。它通过删除项来将敏感规则的支持度或置信度降低到阈值以下,以达到隐藏目的。为了减少副作用,Relevance-sorting算法利用事务与它所包含的非敏感模式之间的关系来计算相关度,选出待修改的候选事务。实验证实,相比于同类方法,Relevance-sorting算法可以有效的减少被误隐藏的非敏感规则。本文在理论方面也做了一定的探索性研究。通过分析副作用产生的原因,提出了基于“边界规则”的概念和相关理论,并设计了基于边界规则的隐藏方法BRDA。数据库中大部分关联规则与副作用的产生无关,只有少部分规则容易受到数据修改操作的影响而演变成副作用。本文通过定义正边界规则和负边界规则的概念,将这类处于临界状态,容易受到影响而演变为副作用的规则提取出来,分析其相关性质。正边界规则非常容易受数据修改影响而被隐藏,每一个被误隐藏的非敏感规则都来自于正边界规则;而负边界规则虽不是强关联规则,但很容易受数据修改影响而变成强关联规则,每一个虚假规则都来自于负边界规则。BRDA算法利用事务与边界规则的关系选择候选集进行修改。实验结果表明,BRDA算法可以非常有效的降低副作用。本文也对基于数据阻塞的关联规则隐藏模式进行了研究,并提出了采用阻塞模式隐藏规则的新算法BRBA。不同于前面几种方法所采用的数据扭曲模式,数据阻塞模式不会在数据库中引入错误信息。对于发布的数据,用户可清晰的区分哪些数据项未被修改过,这在某些应用领域尤为必要。在阻塞模式下,关联规则的支持度或置信度不再是单一的确定值,而变成一个区间,即支持度区间和置信度区间。BRBA通过将敏感规则的置信度区间下界降到指定阈值以下,来达到隐藏目的。采用阻塞模式的潜在风险是攻击者较易识破被隐藏的敏感规则。为了防止这类风险,BRBA在执行过程中,有意提高虚假规则的数量,因为虚假规则与隐藏后的敏感规则具有相同的特征,存在一定数量的虚假规则,可以使攻击者难以分辨出敏感规则。