论文部分内容阅读
现有的序列模式挖掘算法能有效地在大型数据库中挖掘出完整的序列模式集。然而在这些算法中仍存在两个值得注意的问题,一是大多数增量挖掘算法一般只考虑向数据库中增加事务和数据序列的情况,很少考虑删除这些数据的情况;二是目前序列模式的增量式挖掘算法主要集中在数据库更新基础上的序列模式维护技术的研究,很少有算法考虑到当算法参数发生变化时,如何根据前次挖掘结果尽快挖掘新条件下的序列模式集。这两类问题的研究在电子商务、顾客购物模式以及Web访问挖掘等领域中具有重要的意义。
针对以上两个问题,本文首先提出了当从序列数据库中删除某些数据时序列模式的增量式更新算法。该算法以Apriori的候选产生和测试策略为基础,将前次挖掘得到的频繁序列集保存起来,同时采用一种新的候选序列集生成方法,仅生成新出现的候选模式,缩小了模式的搜索空间,在一定程度上减小了候选集的规模,降低了模式挖掘的时间。在从序列数据库中删除数据的情况下进行序列模式的增量式挖掘时,该算法的性能明显优于GSP。
其次,提出了当算法参数发生变化时序列模式的增量式更新算法。该算法基于候选库CB的结构,将前次挖掘得到的候选序列模式及其支持度的信息都保存在候选库中,以便下次挖掘时使用。当指定的最小支持度小于前次挖掘时的最小支持度时,挖掘过程中应及时对候选库进行更新。该算法减小了候选集的规模,缩小了模式搜索空间,降低了模式挖掘的时间。在最小支持度阈值逐渐变小时,该算法的性能明显优于GSP。
实验结果表明,本文提出的两种算法在挖掘时间上以及生成的候选集的规模上都明显优于现有的同类算法,实现了预期的研究目标。