关联规则中简洁频繁项集的挖掘方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:moimon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对存储数据的爆炸性增长,知识发现和数据挖掘应运而生。它能从大量、不完全、有噪声的实际数据中,有效提取隐含在其中的、事先未知但又潜在有用的知识,并能够为我们的现实决策过程提供支持。 关联规则的挖掘是数据挖掘的重要任务之一,频繁模式挖掘作为关联规则挖掘的重要步骤,被广泛应用在相关性分析、序列模式、显露模式、最长模式等许多重要数据挖掘任务中,得到了深入研究,并出现了有效挖掘方法。然而新的数据形态向传统挖掘方法提出了新的挑战,这主要表现在:(1)数据量巨大。面对大规模数据,传统算法不能够有效处理。(2)挖掘结果庞大,难于被用户接受和处理。挖掘结果的单位空间包含信息量较少,浪费了大量空间,并影响了处理效率。(3)对于流数据不能实时有效处理。流数据是动态的,而且频繁更新,挖掘过程需要不断进行,以更新当前的挖掘结果。传统方法不能实现快速更新,满足这种实时需求。选择更加简洁有效的数据表示方法和挖掘方法依然是此类挖掘任务的重要因素。 针对上述问题,本文针对基于频繁模式简洁形式进行关联规则的挖掘问题进行深入研究,提出新的有效方法。主要工作包括: (1)针对频繁模式简洁表示形式提取过程复杂问题,重新考察频繁模式表示方法中存在的冗余,以及使用在同一个项集中项之间的关联关系对存在的冗余进行界定的问题。根据界定冗余的方法对搜索空间进行分析,把项之间的关联和搜索空间的剪枝结合起来。提出关联后缀剪枝方法,利用项关联后缀对冗余进行标识,使得对搜索空间进行的提前剪枝成为了可能。 (2)在频繁模式关联上界的挖掘中整合关联后缀剪枝方法,对挖掘的搜索空间进行剪枝。FP-树结构的路径表示了项之间的关联关系,通过对项关联后缀进行处理,标示冗余的搜索空间,使得挖掘的搜索空间提前剪枝。不仅避免了维护大量中间结果所需的较大内存空间以及由此引发的进行的大规模超集判断,并可直接生成频繁集的闭模式表示方法。避免了通过在内存中保留所有挖掘的中间结果,同时使处理过程更加简洁高效。 (3)具有反单调性的Geneiator项集更适合具有反单调约束的具体应用问题处理。研究了频繁项集关联下界的挖掘问题,提出深度优先进行挖掘Generator表示的方法,在挖掘过程中根据多项关联关系进行剪枝,使得剪枝后的项集大部分为Generator项集。使用后缀剪枝方法对非 Generator项集进行二次剪枝,从而有效生成频繁项集的Generator表示方法。同时还发现被剪枝部分仍能为进一步的挖掘进行引导。 (4)验证了基于Generator的关联规则和基于闭模式的关联规则的简洁性。提出在深度优先的挖掘频繁模式的过程中,直接枚举出基于以上简洁形式的关联规则的方法。使挖掘频繁模式简洁表示的过程与生成关联规则的过程结合起来,对搜索空间进行剪枝。 (5)针对流数据,提出基于最近数据动态维护Generator简洁表示的方法,以及如何继承以往数据挖掘结果的问题。通过合理选择处于频繁和非频繁、Generator项集和非Generator项集之间的边界项集,以跟踪由于数据更新引起的挖掘结果的改变,而不需保存所有频繁项集和非频繁集。同时根据数据的变化,仅对与之相关的项集进行更新,使挖掘处理工作限定在仅与更新事务相关的范围之内,维护空间和时间效率较高。
其他文献
IMS(IP Multimedia Subsystem)是由3GPP组织定义的基于IP的新一代电信核心控制网络,采用控制和承载、控制和业务互相分离的机制,网络能力得到很大加强,同时支持固定和移动的多种
随着电信业的迅速发展,用户对新业务的需求不断增加,传统的以电路交换为主的电信体系已经不能适应新业务的需求,因此建设以软交换为核心的下一代网络势在必行。 下一代网络通
可执行程序的反编译是逆向工程中一个重要的研究领域,自高级程序设计语言出现之时,反编译就随之出现了。传统的针对过程式语言的反编译的研究已经颇有建树,而如今随着面向对象概
作业调度是影响面向大数据应用分布式计算的MapReduce框架性能的重要因素,成为近年来的研究热点。相互独立的周期性执行批处理作业是MapReduce环境下的重要作业类型。本文研究
排样是计算机技术和现代经济发展的产物。排样问题的目标就是尽最大可能在材料上放置尽可能多的零件,以减少材料损失。计算机辅助排样是广泛应用的计算机辅助技术之一,具有板
论文主要分三部分。第一部分(第二章),介绍了遗传算法的主要思想,起源,优点,缺点,主要应用框架,主要因素对遗传算法的性能的影响。第二部分(第三章),结合遗传算法的不足,有针对性的对
网络的飞速发展,政务、商务及日常生活的信息化,使得与公钥密码技术相伴的数字签名技术有了广泛的应用前景。数字签名之于数字文件,正如手写签名之于纸质文件,在电子商务和政务中
人们使用互联网方式的改变增加了对组播技术的要求。从视频会议到网络直播,从数据共享到多方游戏,网络带宽的耗费越来越高。以节省网络资源著称的组播技术无疑将发挥越来越重要
近年来,随着计算机视觉技术的快速发展,新兴的无人驾驶汽车、增强现实、虚拟现实等领域取得了显著的成绩,然而随着工业界的推进,这些领域在精度和效率上有了进一步需求,光流估计和
近年来,数据挖掘逐渐成为研究的热点。数据挖掘是从大量数据中发现知识,源于诸如数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算。获取的信息和知