论文部分内容阅读
随着计算机和数据库技术的迅猛发展,人类进入了信息时代,收集、存储数据的能力大大增强,传统的数据分析工具已经满足不了人们的要求。如何不被海量的数据淹没,如何从数据中挖掘出有用的信息帮助人们决策,在这种形势下,数据挖掘技术应运而生。数据挖掘就是从大量的数据中发现潜在有效的信息的过程。关联规则挖掘是数据挖掘的一个重要方面,主要用于发现数据库中项与项之间的某种联系。关联规则挖掘已经被广泛的应用于各个方面,如:超市货架的布置、存货管理、商品的营销策略、银行、电信、移动的数据分析及其保险、医疗等其他行业。面对日益膨胀的海量数据,传统的关联规则挖掘方式已经满足不了人们的需求,因此大数据集的关联规则挖掘研究显得尤为重要。针对上述问题,本文从基于抽样的关联规则挖掘和并行关联规则挖掘模型两个方面着手解决大数据集的挖掘问题。抽样是统计学中应用非常广泛的一种方法。当总体数据量很大时,想要对总体中的每个个体都进行研究是不现实的,因此通常采用抽样的方法得到一个小样本对总体进行估计。将抽样的概念与关联规则结合起来,在研究已有抽样算法的基础上,提出一种新的层次二分抽样算法(EHAC)。该算法在每次挖掘前对已有数据进行抽样,使数据平均划分的同时,频繁k-项集也尽量能够得到平均划分,以保证通过少量的数据挖掘出高精度的规则。通过实验证明,该算法性能优越,精度明显优于HAC算法而且在运行时间方面也体现了它的优势。在分析典型并行算法的基础上,提出了一种基于客户机/服务器模式的关联规则挖掘算法。该算法设置一个中心节点做为服务器,其他节点为客户机,将原有大数据集平均划分到各客户机,每个客户机独立进行挖掘。每次挖掘结束后,各客户机将局部频繁项集传递给服务器,由服务器得到全局频繁项集,避免了各客户机之间相互通信,减少通信量。同时,引入数据库的触发机制,使服务器全局频繁项集的生成自动进行。最后通过实验证明,该模型和算法提高了挖掘性能,使大数据的挖掘从不可行到可行,从困难到容易。