论文部分内容阅读
序列模式挖掘是数据挖掘中一个重要研究领域,其序列模式挖掘算法研究具有重要研究意义。通过对经典序列模式挖掘算法的研究,本文取得如下研究成果:(1)对经典序列模式挖掘算法AprioriAll、GSP、SPADE和SPAM进行比较与分析。(2)对基于模式增长的序列模式挖掘算法Prefix Span进行研究,给出了该算法在序列模式挖掘过程中存在重复投影数据库的理论分析、算法在执行过程中的投影划分次数的上确界和下确界、最坏情形下产生重复投影数据库数的一般式。(3)在基于前缀投影思想并参考SPAM算法的数据结构基础上,采用二维表来存储频繁项在序列数据库中的位置信息;统计二维表中每列非空位置信息集的个数快速计算序列支持度,并确定其频繁性;通过对序列前缀位置的进行检查避免序列模式挖掘过程中对相同投影子表的重复挖掘。