论文部分内容阅读
数据挖掘是在海量数据中对有用信息进行抽取或者挖掘的过程。随着数据挖掘技术的快速发展,在商业、金融、医疗等多个领域,它在给人类带来方便讯息的同时,也不可避免的涉及到相关的隐私问题。因此,保护私密的数据挖掘正是在这种背景下出现的,并且已经受到越来越多人的关注。 本文在综合研究了国内外私密保护数据挖掘相关成果的基础之上,应用随机化方法,从以下两个方面对基于P2P网络的私密保护方法展开讨论: (1)以原始私密保护算法为研究对象,在 P2P网络上使用随机答复(Random Response,RP)技术对原始算法进行优化。该方法通过使用RP技术对原始数据进行随机变换,并对RP技术中影响隐蔽率的变动参数q与数据挖掘算法精确率进行函数化表示。实验结果表明,本文的优化算法,不管是私密保护的效果(私密保护算法的精确率)还是私密保护的效率(私密保护算法的复杂度),都比原始算法有了较大的提高,从而证明了优化算法的可行性。 (2)以C4.5分类算法为研究对象,在P2P网络上设计RP-C4.5私密保护算法。该算法通过在构造决策树的过程中使用RP技术,来对初始的私密数据进行随机变换,从而达到保护私密数据的目的;通过修改 C4.5算法中信息增益比的求解方法,来适应伪装后的数据,从而实现分类挖掘过程中私密保护的目的。实验结果表明,RP-C4.5私密保护算法的精确率高于原始的 C4.5分类算法。即使在训练数据集的数据量较大或者变幻参数q的取值较小两种情况下,RP-C4.5私密保护算法的精确率也要优于原始的 C4.5分类算法,即 RP-C4.5私密保护算法的私密保护效果更好,从而证明RP-C4.5私密保护算法是切实可行的。