论文部分内容阅读
关联规则(association rules)在数据挖掘是一个重要的研究内容.而产生频繁集(frequent items)则是产生关联规则的第一步.在大多数以前的实现中,人们普遍采用了类似于Aprior的算法.这种算法首先产生频繁候选集(candidate items),然后根据最小支持度(minimum support)生成频繁集,最后得出关联规则.Apriori算法有一个很大的缺点,就是使用不断产生候选集并加以测试的方式来得到频繁集,这样产生候选集的代价是非常大的.虽然人们想出了很多办法,但根本的扫描多遍数据库没变,因此不可能从根本上提高算法的效率.在1999年,Jiawei Han 等人又提出了以FP-tree(Frequent Pattern Tree)结构为基础并结合FP-growth算法的不需要产生候选集的频繁集的挖掘算法.该算法是目前我们所看到的研究中最新、最有效率,同时也最为著名的算法之一,DBMINER便是实际运用FP-growth算法的产品.基于FP-tree结构的关联规则挖掘在挖掘单一维和布尔值规则的领域中是相当有用的结构.该算法的思想是将提供频繁项集的数据库压缩到一棵频繁模式树(或FP-tree),但仍保留项集关联信息,然后,将这种压缩后的数据库分成一组条件数据库(一种特殊类型的投影数据库),每一个条件数据库关联一个频繁项集.对FP-tree方法的性能研究表明:对于挖掘长的和短的频繁模式,它都有效的,并且具有良好的可伸缩性,且大约比Apriori算法快一个数量级.但FP-tree方法,需要二次扫描事务库D,构造出的FP-tree几乎每一个项均需要一个指针支持,空间的消耗是很大的,挖掘FP-tree的过程也显得相当的麻烦.因此,该文提出一种新型的发现频繁项集的数学模型——互关联后继树模型.和FP-tree一样,互关联后继树不需要产生候选项集,而直接构造频繁项集.而且只需要扫描一遍事务库.将互关联后继树运用到关联规则的挖掘上也可以产生很好的效率.