论文部分内容阅读
数据挖掘也称为数据库中的知识发现,受到当今国际人工智能与数据库界的广泛重视,它是从大量数据中发现潜在的、有趣的知识的过程。关联规则挖掘是数据挖掘领域中的一个非常重要的研究内容,其主要目标就是发现数据库中一组对象之间某种有趣关联或相关联系,在许多领域得到了广泛的应用。 关联规则的挖掘主要是基于频繁集的方法,相关的算法主要有Apriori算法和FP-growth算法。FP-growth算法采用不同于以前Apriori系列算法的候选产生测试方法,采取模式增长的方法挖掘关联规则,它克服了Apriori系列算法的缺陷,取得了很好的效果。但是,FP-growth算法仍然存在着一些不足,如算法的性能严重依赖于数据库的大小,挖掘关联规则时需要递归地生成和释放成千上万的条件模式树,等等。 针对Apriori算法和FP-growth算法存在的问题,本文主要开展并完成了以下研究工作: (1)深入了解关联规则挖掘的研究现状,重点研究基于FP-tree的关联规则挖掘算法FP-growth算法,分析和讨论该算法存在的主要问题。 (2)提出了一种基于投影的频繁模式树后插式构造方法并设计了相应的算法。该方法充分利用大型数据库的投影运算能力,按层来构造频繁模式树(FP-tree),有效地解决了传统的FP-tree构造中存在的问题。 (3)具体研究了FP-tree和PRIFP-tree的实现,并通过实验对两种构造方法进行对比,分析两种构造算法的性能。实验结果表明基于投影的频繁模式树后插式构造方法与传统的频繁模式树的构造方法相比较,具有更好的可伸缩性,特别是在事务数很大的情况下,效果尤其显著。 本文的研究工作是对关联规则的挖掘算法的切实可行的改进,对研究基于SQL的关联规则挖掘算法具有一定的参考价值。