论文部分内容阅读
随着人们利用信息技术生产和搜集数据的能力的提高,数据资料的规模急速膨胀,从庞大的数据中提取有用的知识和信息是数据挖掘的主要任务,而关联规则的挖掘是数据挖掘领域中的一个重要分支。Fp-growth算法是目前最有效的关联规则频繁模式挖掘算法之一,然而,由于在挖掘的过程中需要递归的生成频繁模式树,直接把Fp-growth算法应用在文本中的算法效率并不高。针对文本数据的稀疏性,提出了一个基于频繁模式树即Fp-tree和支持度矩阵相结合的最大频繁项目集挖掘算法,缩小了搜索空间,提高了算法的效率。算法分析和实验