论文部分内容阅读
随着“大数据时代”的来临,数据挖掘广泛应用于社会生活、商企运营、科技研发等多个领域。“互联网+”的普及和数据存储技术的高速发展,也为海量数据的收集和管理提供了有力的技术支撑。通过对海量数据进行挖掘,可以从中发掘有社会和商业价值的知识。然而,被挖掘的数据中往往包含着许多敏感信息,给用户的隐私和数据安全带来了一定威胁。因此,研究如何将隐私保护和数据挖掘有机结合,在保护敏感数据的同时,实现精确高效地挖掘,目前已成为数据挖掘研究领域的热门方向。本文主要研究内容为基于隐私保护关联规则的挖掘算法,重点针对面向集中式分布数据的隐私保护关联规则挖掘算法AOPAM进行分析和改进。文中首先介绍了相关背景知识,对传统的典型算法进行分析,详细阐述了算法原理并提出了算法的综合评估标准。接着,着重分析了基于部分隐藏转移概率矩阵的AOPAM算法,针对算法在时间复杂度和时间效率上的不足,本文提出了两个优化策略对其加以改进:其一,采用矩阵的分治和递推思维简化高阶逆矩阵的求解;其二,利用集合运算原理加快项集的计数。通过优化频繁项集重构过程来降低算法的时间复杂度,提高运行效率。最后,通过具体实验与分析,验证了提出的改进策略在优化时间效率方面的有效性。本文主要研究工作如下:(1)对概率矩阵求逆过程进行改进。原算法在项集支持度重构过程中,需根据初等变换法则对2~N×2~N阶矩阵求逆,时间复杂度高,运行效率低。本文提出的改进算法从分治和递推思维出发,根据各阶矩阵间的递推规律,用N-1项集的概率逆矩阵递推得到N项集的对应逆矩阵,避免了对每个矩阵进行冗长复杂的初等变换求逆运算,使得算法在高阶矩阵求逆过程中具有更高的运行效率。(2)对项集支持度计数的流程进行优化。原算法需要频繁扫描数据库,对2~N种N项集循环计数,步骤繁杂冗长。本文改进算法根据集合容斥原理,利用已知项求解未知项,在同样的项集支持度计数过程中只需扫描N次数据库。改进后的算法简化了项集计数流程,提高了算法运行效率;(3)实验验证。从算法的运行时间、隐私保护系数和一致性误差三方面对改进后的算法进行比较分析,验证了算法的有效性。