论文部分内容阅读
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术的广泛应用使得人们能够从大量数据中获取隐含的知识。然而,由于被挖掘的数据中通常还包含着许多敏感性的信息,使得数据挖掘在带来信息时代知识学习的巨大价值的同时,也对人们的隐私和数据安全构成了威胁。目前在商业、军事及公共医疗卫生等应用领域,经常面临着如何在保护各自隐私安全的前提下进行充分的同行业合作以及数据共享的问题。因此,如何将数据挖掘和隐私保护有机地结合起来,已经是人们面临的一个重要课题。基于隐私保护的数据挖掘(Privacy Preserving Data Mining,简称PPDM)是指采用数据扰乱、数据重构、密码学等技术手段,能够在保证足够精度和准确度的前提下,使数据挖掘者在不触及实际隐私数据的同时,仍能进行有效的挖掘工作。其目的就是通过对原始数据或者挖掘算法进行某种改进,在不向外界泄漏隐私信息的同时,发现原始数据的某些统计规律或隐含的知识和规则。目前围绕分类挖掘、聚类挖掘和关联规则挖掘等主要的数据挖掘方法,学术界已经提出了许多相应的PPDM算法。但是在神经网络学习和贝叶斯网络增量学习方面,与之相关的PPDM算法研究较少,且效率不高。另外,分布式数据挖掘中的隐私保护问题较集中式环境更为复杂,使得传统集中式PPDM技术无法直接应用于分布式环境中。所以本文针对这些问题展开了深入研究。概括地来说,本文的主要研究工作可分为以下几个方面:1)反向传播神经网络学习算法已经被广泛地应用在医疗诊断,生物信息学,入侵检测,国土安全等领域。这些应用领域有一个共同点,就是都需要从大量的复杂的数据中抽取模式和预测趋势。在以上这些应用领域中,如何来保护敏感数据和个人的隐私信息不被泄露是一个重要的问题。目前已有的反向传播神经网络学习算法,绝大多数都没有考虑学习过程中如何保护数据的隐私信息。本文为反向传播神经网络提出两个基于隐私保护的协议,分别适用于数据被水平分割和数据被垂直分割的情况。在建造神经网络的过程中,需要为训练样本集计算网络权向量。为了保证神经网络学习模型的隐私信息不被泄露,本文提出将权向量分配给所有参与方,使得每个参与方都具有权向量的一部分私有值。在对各层的神经元进行计算时,使用安全点积协议,安全多方乘积协议和安全多方加协议,从而保证神经网络权向量的中间值和最终值都是安全的。最后被建造好的学习模型被所有参与方安全地共享,并且每个参与方可以使用该模型为各自的目标数据预测出相应的输出结果。实验结果表明本文所提出的两个协议的执行时间与加密密钥长度和参与方数目之间的关系。另外,实验结果还表明这两个协议与各自的非隐私保护版本协议在测试误差率上的区别。2)贝叶斯网络学习是机器学习和数据挖掘的另一个研究方向。在对贝叶斯网络学习算法的研究中,一方面需要考虑数据的隐私信息不被泄露;另一方面,在现实世界应用中,数据可能是逐步到达贝叶斯网络的,因此传统的贝叶斯网络学习算法就不能被有效的应用。为了解决该问题,可以使用增量学习的策略。增量学习策略可以在安全性、执行时间和内存分配方面改善算法的性能,但是目前已有的基于隐私保护的贝叶斯网络学习算法都没有结合增量学习的策略。所以本文提出一种基于隐私保护的贝叶斯网络增量学习算法。该算法所使用的增量学习策略是基于充分统计量的。其思路大致为:首先提出一个计算充分统计量的公式,在此基础上对传统的K2算法进行改进,并添加了充分统计量的概念,进而提出一个增量型的K2算法,最后提出基于隐私保护的贝叶斯网络增量学习算法。使用该算法可以从那些被水平分割并且是逐步到达的数据中,计算出网络结构和参数。该算法只需要保存每个结点和它可能的双亲集合的充分统计量,就可以计算出每个结点和它的双亲的得分函数值,从而建造出贝叶斯网络结构。实验结果表明本文所提出的基于隐私保护的贝叶斯网络增量学习算法的执行效率高于非增量学习算法。另外,实验结果还表明增量学习算法的执行时间与候选双亲链表中所含成员数目之间的关系。3)在分布式环境下,对大量的分布式数据进行数据挖掘时,如何保护数据的隐私信息是一个重要问题。本文从系统框架设计和算法设计两个方面来解决这个问题。在系统框架设计方面,本文提出了一种新的适用于频繁模式挖掘的框架,其中每个子网络只含有一个ConnectNode,并由其负责和其它网络进行数据传输,从而提高网络之间数据传输效率。在整个分布式框架内,只有可信结点可以访问数据库。在算法设计方面,本文提出了一种分布式环境下基于隐私保护的频繁模式挖掘算法,该算法没有采用以往的切割传输数据库的方法,而是设计出一种传输频繁模式树的方法。该方法通过对待传输的数据先进行压缩再传输的方式来提高网络传输效率。在该算法中计算结点不需要访问数据库,也不需要各个结点交换数据内容,从而避免数据隐私信息被泄露。只有可信结点才被允许访问数据库内容,所以即使某个计算结点的数据被窃取,该数据也并不是完整的交易内容,从而可以将数据泄露的威胁降到最低。实验结果表明本文所提出的算法的执行效率明显高于其它并行分布式的频繁模式挖掘算法。综上所述,本文针对神经网络和贝叶斯网络这两种主要的机器学习算法,分别提出了相应的基于隐私保护的算法,从而保证数据中的隐私信息在机器学习的过程中不被泄露。另外,本文解决了分布式环境下隐私保护与数据挖掘之间的矛盾,将这两种技术有机地结合在一起,提出了一种新的分布式环境下基于隐私保护的频繁模式挖掘算法,从而既可以保证原始数据中的隐私信息在频繁模式挖掘过程中不被泄露,又可以保证挖掘出有用的规则和模式。