论文部分内容阅读
面对存储数据的爆炸性增长,知识发现和数据挖掘应运而生。它能从大量、不完全、有噪声的实际数据中,有效提取隐含在其中的、事先未知但又潜在有用的知识,并能够为我们的现实决策过程提供支持。
关联规则的挖掘是数据挖掘的重要任务之一,频繁模式挖掘作为关联规则挖掘的重要步骤,被广泛应用在相关性分析、序列模式、显露模式、最长模式等许多重要数据挖掘任务中,得到了深入研究,并出现了有效挖掘方法。然而新的数据形态向传统挖掘方法提出了新的挑战,这主要表现在:(1)数据量巨大。面对大规模数据,传统算法不能够有效处理。(2)挖掘结果庞大,难于被用户接受和处理。挖掘结果的单位空间包含信息量较少,浪费了大量空间,并影响了处理效率。(3)对于流数据不能实时有效处理。流数据是动态的,而且频繁更新,挖掘过程需要不断进行,以更新当前的挖掘结果。传统方法不能实现快速更新,满足这种实时需求。选择更加简洁有效的数据表示方法和挖掘方法依然是此类挖掘任务的重要因素。
针对上述问题,本文针对基于频繁模式简洁形式进行关联规则的挖掘问题进行深入研究,提出新的有效方法。主要工作包括:
(1)针对频繁模式简洁表示形式提取过程复杂问题,重新考察频繁模式表示方法中存在的冗余,以及使用在同一个项集中项之间的关联关系对存在的冗余进行界定的问题。根据界定冗余的方法对搜索空间进行分析,把项之间的关联和搜索空间的剪枝结合起来。提出关联后缀剪枝方法,利用项关联后缀对冗余进行标识,使得对搜索空间进行的提前剪枝成为了可能。
(2)在频繁模式关联上界的挖掘中整合关联后缀剪枝方法,对挖掘的搜索空间进行剪枝。FP-树结构的路径表示了项之间的关联关系,通过对项关联后缀进行处理,标示冗余的搜索空间,使得挖掘的搜索空间提前剪枝。不仅避免了维护大量中间结果所需的较大内存空间以及由此引发的进行的大规模超集判断,并可直接生成频繁集的闭模式表示方法。避免了通过在内存中保留所有挖掘的中间结果,同时使处理过程更加简洁高效。
(3)具有反单调性的Geneiator项集更适合具有反单调约束的具体应用问题处理。研究了频繁项集关联下界的挖掘问题,提出深度优先进行挖掘Generator表示的方法,在挖掘过程中根据多项关联关系进行剪枝,使得剪枝后的项集大部分为Generator项集。使用后缀剪枝方法对非 Generator项集进行二次剪枝,从而有效生成频繁项集的Generator表示方法。同时还发现被剪枝部分仍能为进一步的挖掘进行引导。
(4)验证了基于Generator的关联规则和基于闭模式的关联规则的简洁性。提出在深度优先的挖掘频繁模式的过程中,直接枚举出基于以上简洁形式的关联规则的方法。使挖掘频繁模式简洁表示的过程与生成关联规则的过程结合起来,对搜索空间进行剪枝。
(5)针对流数据,提出基于最近数据动态维护Generator简洁表示的方法,以及如何继承以往数据挖掘结果的问题。通过合理选择处于频繁和非频繁、Generator项集和非Generator项集之间的边界项集,以跟踪由于数据更新引起的挖掘结果的改变,而不需保存所有频繁项集和非频繁集。同时根据数据的变化,仅对与之相关的项集进行更新,使挖掘处理工作限定在仅与更新事务相关的范围之内,维护空间和时间效率较高。