论文部分内容阅读
我们处在一个信息爆炸的大时代,计算机处理能力、存储技术以及互联网络的发展又极大地提高了信息的数字化处理程度,所有这些又大大激发了从大量的数据中挖掘有用信息的需求,从而推动了数据挖掘的发展。任何事情都有其两面性,在数据挖掘领域也不例外,随之产生的就是信息安全和隐私保护的问题,如何在保证隐私的情况下挖掘出有用的信息是近年来数据挖掘领域研究的热点之一。 本文首先结合数据分布方式、数据修改方式、数据挖掘算法、数据或规则保护和隐私保护技术五个角度,对当前流行的隐私保护数据挖掘方法作了一个深入浅出的分析和介绍。 接着提出了一种新颖的隐私保护分类挖掘的算法。算法的第一部分着重于如何通过变换数据来保护隐私:首先提出了“单属性转移概率矩阵”的概念;接下来提出了“多个分裂属性联合转移概率矩阵”来表达多个分裂属性的联合变换概率,同时也介绍了计算其值的方法和计算其逆矩阵的简便方法(即等于“单属性转移概率矩阵”逆的联合);然后描述了通过“单属性转移概率矩阵”来变换原始数据的数据变换方法。算法的第二部分着重于如何从变换后的数据中恢复联合属性值的支持计数来产生判定树:首先推导了一个公式来从变换后的数据中恢复联合属性值的支持计数;接下来推导了另外一个公式,以便根据联合属性值的支持计数来计算Gain,进而选择最佳分裂属性和分裂点;最后给出了基于隐私保护的判定树产生算法-PPCART。另外本文也介绍了隐私保护程度的量化表示方法,以及给出了一个网上调研的例子来说明本算法的应用。一系列的实验表明该算法适用于所有的数据类型(布尔类型、分类类型和数字类型)、任意的原始数据概率分布和变换任何属性(包括标签属性),实验表明该算法在变换后的数据集上构造的分类树具有较高的精度。 然后又提出了一种新颖的全局关联规则隐私保护挖掘算法:先分别运用“项集转移概率矩阵”对各个分布站点的数据进行变换;然后提出了一种方法来恢复项集的全局支持计数,以便找出全局频繁项,进而找出全局关联规则。为了保证算法的有效性,该算法没有直接变换记录/事务里的项,而是对每条记录,先找出该记录里包含的所有候选频繁κ-项集,再用单符号分别代替每一个被包含的候选频繁κ-项集,然后逐个变换这些符号,最后将变换后的符号组合成一条记录,