论文部分内容阅读
数据挖掘是一门新兴的交叉学科,涉及到数据库技术、机器学习、统计学、模式识别、神经网络、人工智能、数据可视化等多个领域。目前它已成为数据库研究中最活跃、最令人兴奋的领域之一。
关联规则是数据挖掘研究中一个重要的研究课题,其主要的研究目的是从大型数据库中发现属性间存在的隐藏的、有趣的关系。频繁项集挖掘是关联规则挖掘的第一步,也是影响总体性能最关键的一步。因此,本文的研究重点放在了频繁项集挖掘上,研究内容主要包括以下几个部分:
1.深入研究了两个频繁项集挖掘算法。一个是经典FP-growth算法,它是基于FP-树的无候选项集产生算法,开辟了有效挖掘频繁模式的新途径。另一个是范明提出的基于单向FP-树的频繁项集挖掘算法,该算法在挖掘过程中不生成条件模式树。本文对比分析了FP-树和单向FP-树两种树结构,总结了FP-growth算法存在的问题,以及单向FP-树及其算法的优势。
2.在第一部分研究的基础上,参考最大频繁项集挖掘算法FP-Max,设计了基于单向FP-树的最大频繁项集挖掘算法Unid_FP-Max。该算法是一个深度优先算法。从算法分析和实验比较显示:对于密集型数据,Unid FP-Max算法在时间和空间开销上均小于FP-Max算法。
3.参考频繁闭项集挖掘算法CLOSET,设计了基于单向FP-树的频繁闭项集挖掘算法Unid FP-FCI。该算法是一个深度优先算法。经初步分析可知:Unid FP-FCI算法的效率会优于CLOSET算法。