隐私保护的数据挖掘

被引量 : 0次 | 上传用户:luoding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们处在一个信息爆炸的大时代,计算机处理能力、存储技术以及互联网络的发展又极大地提高了信息的数字化处理程度,所有这些又大大激发了从大量的数据中挖掘有用信息的需求,从而推动了数据挖掘的发展。任何事情都有其两面性,在数据挖掘领域也不例外,随之产生的就是信息安全和隐私保护的问题,如何在保证隐私的情况下挖掘出有用的信息是近年来数据挖掘领域研究的热点之一。 本文首先结合数据分布方式、数据修改方式、数据挖掘算法、数据或规则保护和隐私保护技术五个角度,对当前流行的隐私保护数据挖掘方法作了一个深入浅出的分析和介绍。 接着提出了一种新颖的隐私保护分类挖掘的算法。算法的第一部分着重于如何通过变换数据来保护隐私:首先提出了“单属性转移概率矩阵”的概念;接下来提出了“多个分裂属性联合转移概率矩阵”来表达多个分裂属性的联合变换概率,同时也介绍了计算其值的方法和计算其逆矩阵的简便方法(即等于“单属性转移概率矩阵”逆的联合);然后描述了通过“单属性转移概率矩阵”来变换原始数据的数据变换方法。算法的第二部分着重于如何从变换后的数据中恢复联合属性值的支持计数来产生判定树:首先推导了一个公式来从变换后的数据中恢复联合属性值的支持计数;接下来推导了另外一个公式,以便根据联合属性值的支持计数来计算Gain,进而选择最佳分裂属性和分裂点;最后给出了基于隐私保护的判定树产生算法-PPCART。另外本文也介绍了隐私保护程度的量化表示方法,以及给出了一个网上调研的例子来说明本算法的应用。一系列的实验表明该算法适用于所有的数据类型(布尔类型、分类类型和数字类型)、任意的原始数据概率分布和变换任何属性(包括标签属性),实验表明该算法在变换后的数据集上构造的分类树具有较高的精度。 然后又提出了一种新颖的全局关联规则隐私保护挖掘算法:先分别运用“项集转移概率矩阵”对各个分布站点的数据进行变换;然后提出了一种方法来恢复项集的全局支持计数,以便找出全局频繁项,进而找出全局关联规则。为了保证算法的有效性,该算法没有直接变换记录/事务里的项,而是对每条记录,先找出该记录里包含的所有候选频繁κ-项集,再用单符号分别代替每一个被包含的候选频繁κ-项集,然后逐个变换这些符号,最后将变换后的符号组合成一条记录,
其他文献
采用文献资料法、问卷调查法和访谈法,了解上海市高校大学生自行车协会会员的健康现状与骑行锻炼意识、骑行投入、骑行动机及影响因素等,旨在为引导大学生参与自行车骑行并将
目的:探讨清醒和睡眠状态对听性稳态反应(ASSR)阈值的影响。方法:选正常青年人15例(30耳)行ASSR测试。ASSR参数:载波频率(CM)为0.5、1.0、2.0、3.0、4.0、6.0kHz,调制频率(FM
<正>上元二年(公元七六一年)春天,杜甫卜居浣花溪畔的草堂已经有一年了.诗人经历千辛万苦,来到了成都,一家人的生活居然安定了下来,对此是比较感到欣慰的.但他并不满足于这种
目的:研究负性生活事件与耳鸣患者生活质量的关系,探讨负性生活事件在耳鸣心理咨询及康复中的作用。方法:对61例耳鸣患者和61例正常对照者进行耳鸣残疾量表及生活事件量表问
射线追踪方法是一种快速有效的波场近似计算方法,由于计算快速高效,且所提供的射线路径非常直观,因此,广泛应用于波场正演模拟、偏移成像、层析成像等地震信号处理领域。论文
肝细胞肝癌是常见的恶性肿瘤之一,随着诊断技术及治疗手段的发展,近二十年来疗效已经有了很大的提高,但肝癌的转移复发仍是影响长期疗效的重要因素。深入研究肝癌转移的分子
本文详细探讨了冶炼成本的各种比较方法,分析了人为分摊产品成本方法存在的问题,对冶炼企业上项目进行科学的成本分析具有一定的借鉴指导意义.
针对油田在用的常规游梁式抽油机的运行效率较低,特别是其电动机运行效率较低,并结合游梁式抽油机运行方式,提出将一种新型高效调速电动机用作抽油机拖动电动机。它具有启动
施工控制是斜拉桥施工过程中的关键环节,直接影响斜拉桥的施工质量和施工进度,对桥梁施工的成败有着至关重要的影响。论文分析单索面斜拉桥施工控制的特点,提出单索面斜拉桥