论文部分内容阅读
现存的序列模式挖掘算法多是基于瞬时事件的,然而在现实世界中很多事件都是发生在一段时间内,例如语言分析,网络检测等,时间间隔事件序列频繁模式挖掘在这些领域都有很重要的应用。本文的主要研究内容正是带有时间间隔的事件序列频繁模式挖掘。 与传统的序列模式挖掘不同的是时间间隔事件之间的关系是很复杂的,这也正是这种序列频繁模式挖掘的难点。到目前为止多数文章的关系定义都是基于Allen关系定义,本文中的事件关系定义也是基于 Allen关系定义,并在此基础上进行了去噪声处理,使之更适应现实场景。另外本文简单的描述了影响频繁模式生成的各种兴趣度衡量,并且基于现实情况,本文采用支持度为兴趣度衡量。 而本文最主要的贡献是本文提出了一种基于“候选频繁模式生成—支持度计算”的高效算法,并且在两个阶段都提出了改进策略。首先在候选频繁模式生成阶段不同于传统的方法中利用k层频繁模式与k层频繁模式生成k+1层候选频繁模式集,本文提出用k层频繁模式与2层频繁模式构成k+1层候选频繁模式集,这样就能减少在合并两个频繁模式时的关于两个模式中间部分是否相等的比较次数,这种策略在提高算法效率的同时也能够减少冗余候选频繁模式的生成。其次,本文的算法维护一个2-频繁模式集合,利用一定的策略来尽可能的减小用于合并生成候选集的2-频繁模式集,使得产生尽量少的候选频繁模式,提高算法的效率。 在支持度计算阶段本文同样提出了两种改进策略。首先本文在构造候选频繁模式集的同时构造了索引,指向需要遍历的客户序列,这能够有效的减小算法的搜索空间,提高算法效率。其次不同于传统的挖掘算法中在计算支持度的时候多次遍历数据库,本文提出了一种算法,当计算具有相同长度的候选频繁模式的支持度时,只需遍历一次数据库。总之本文在支持度计算的过程中一方面减少遍历数据库的次数,另一方面减少遍历数据库时的搜索空间。 最后,本文提出了仿真数据的生成。在此基础上本文进行了两个方面的实验,一是本文提出了几个重要的参数对算法的影响,并且在实验中验证了提出的理论。二是为了证明本文提出的算法的有效性,本文就算法的效率以及正确率两个方面与枚举树算法和索引集算法进行了对比。