论文部分内容阅读
随着互联网的发展,世界已经走向信息时代。在许多应用领域都产生了数据流。如何使用有限的存储空间进行快速和近似的频繁项集挖掘是数据流频繁项集挖掘最基本的问题。本文对数据流的频繁项集挖掘问题进行了深入地研究,主要做了以下工作:(1)对现有的数据流频繁项集挖掘算法进行了分析研究,在此基础上,引入了最小支持度阈值可变的思想,设计了一个最小支持度阂值可变的数据流频繁项集挖掘算法MRFIVMST,用来挖掘数据流中的最近频繁项集。并通过实验验证了算法的性能。(2)在对算法Lossy Counting与estDec分析的基础上,考虑用户感兴趣的因素,将FP-Tree结构改进为NFI-Tree结构,同时改进了estDec算法的计数衰减方式,设计了一个计数误差可变的数据流频繁项集挖掘算法FIMVES。该算法能够保证不同长度的频繁项集计数严格控制在给定的最小支持度阈值范围内,使得挖掘结果的计数误差满足:(a)频繁1-项集的计数不含误差;(b)频繁2-项集计数的最大误差不大于ε(ε是用户给定的最大误差参数);(c)频繁k(k>2)-项集计数的最大误差不大于2ε。从理论上证明了该结论的正确性,并利用该算法对模拟数据集进行了挖掘,实验结果表明,该算法能准确地找出用户感兴趣的频繁项集,并减少用户不感兴趣的冗余信息的存储开销与处理时间。