论文部分内容阅读
数据挖掘的任务,就是要从海量的数据中,发现其中的有用的信息。它在各个方面都极大的方便了人们的生产,生活,并且在很大程度上提高了工作的效率。 尽管如此,人们也逐渐的发现了它的最致命的弊端,那就是在利用数据挖掘技术和工具给人们提供知识和信息的同时,也严重的暴露了隐私信息。另外,随着计算机网络通讯技术的发展,人们也越来越需要从多方的数据库中发现和挖掘信息和知识。多方联合数据挖掘变得越来越频繁。 在这样的情况下,如何保护私有数据或敏感信息在数据挖掘过程中不被泄露,同时又能够得到较为准确的挖掘结果,已经成为数据挖掘研究中的一个很有意义的研究课题。 目前,关于数据挖掘中的隐私数据保护的算法大多应用于决策树挖掘,关联规则挖掘,聚挖掘等方面,而在序列模式挖掘中保护隐私的算法研究却很少。 本文在隐私保护的序列模式挖掘领域做了以下两方面的研究: 一是在序列模式中的敏感数据隐藏问题方面,在原有的“最小支持度算法(MSA)”和“支持相同隐私序列优先算法(SDRF)”基础上,提出了“最少删除项最先处理”算法,在保证控制隐藏失败率(HidingFailureRate)的前提下,尽最大可能地将对原始数据库的变动降到最低,从而有效地降低了在信息隐藏过程中的意外隐藏百分比(MissesCostRate)和数据变动比例(ModifyingRatio)。并且用实验结果证明了所提出的“最少删除项最先处理”算法比原有的MSA算法和SDRF算法都有着更低的意外隐藏百分比和数据变动比例。 二是笔者提出了隐私保护在序列挖掘中的另外一个新的应用,即多方联合进行序列分割,目前还没有文献在此问题上做研究,笔者将“在不暴露隐私的情况下多方联合计算U(T)→D的频度”的问题转化成秘密比较数的大小的问题,进而用一个简单的基于半可信第三方的比较大小算法解决了多方联合计算时序规则频度的问题,从而在多方联合进行序列分割的时候成功的解决了隐私保护问题。