论文部分内容阅读
数据流模型在经济、军事、金融、电信等领域中普遍存在,同时在这些应用中,由于设备精度、传输丢失、环境干扰、设备故障、隐私保护和不同系统间集成等方面的原因,不确定性在数据流中广泛存在。因此,不确定数据流的数据挖掘算法就成为了一个新的研究方向。频繁模式挖掘作为数据流挖掘工作的重要组成部分,其研究已经历十多年的发展,理论上日趋成熟,但这些研究主要是基于确定性数据的挖掘算法。由于不确定数据增加了概率信息描述其不确定性,传统数据流挖掘算法都不能直接应用到不确定数据流中,因此如何针对不确定数据流进行频繁模式挖掘是不确定数据流管理领域亟待解决的一个重要问题。本文对数据管理中的不确定性现象和问题进行了归纳和总结,并对经典的数据流频繁模式挖掘算法进行了深入分析,在此基础上提出了一些适用于不确定流数据的频繁模式挖掘算法,并通过大量实验验证了其高效性。主要工作包括以下几个方面:(1)基于数据流普遍采用的滑动窗口模型,提出了高效的概率频繁项挖掘算法。该算法避免了每次窗口更新都重新计算答案,而是利用现有的计算结果进行增量更新,从而减少挖掘代价。另外,本文提出的过滤策略,可以显著地减少检测数据的数量,提高挖掘效率。实验结果表明,本文提出的算法可以有效减少候选集,降低搜索空间,改善其在不确定数据流上的性能。(2)基于滑动窗口模型,提出了一种高效的增量概率Top-K频繁项挖掘算法。该算法基于窗口中的现有数据对未来可能成为频繁项的元素进行预测,并提出相应的过滤策略,减少检测数据的数量,提高挖掘效率。同时,该算法对不同窗口中的相同候选元素进行压缩,显著减少存储空间。(3)提出了支持滑动窗口模型的概率阈值频繁模式挖掘算法。该算法设计了一种新的压缩数据结构CPFP-Tree,将同一分支中概率不同的相同项合并为同一节点,可以有效地压缩存储空间并维护不确定数据流的信息;另外,提出了基于CPFP-Tree树结构的挖掘算法(CPFP-mine),在挖掘阶段,利用剪枝策略仅保留必要的项集,并对该候选集进行动态地更新,避免重新计算。实验结果表明,本文提出的算法无论在时间还是在空间上均有较好的性能。(4)由于在挖掘的过程中会产生大量的频繁模式,且这些模式中存在冗余信息,为了解决该问题,普遍采用对结果集压缩的方法。一种解决方法是挖掘闭合频繁项集(frequent closed itemset),另一种解决方法是挖掘生成器项集(generator itemset),但后者在分类器构造应用方面具有更大的优势。因此本文基于不确定数据,对不确定生成器项集进行了形式化定义,并提出了生成器项集的概率计算方法及有效的挖掘算法。另外,本文还提出了相应的剪枝策略,可以有效地减少搜索空间并避免冗余计算。针对数据流环境,提出了一种增量的挖掘算法,该算法通过维护摘要数据结构GET (generator enumation tree)保存生成器项集和其他类型项集的边界信息,避免重复计算。最终通过实验验证了算法的有效性和高效性。