论文部分内容阅读
数据挖掘是从数据库(集)中发掘潜在知识或者模式的一种过程,而关联规则挖掘则一直以来都是数据挖掘领域的热点研究话题,在国内外都有着非常广泛的研究。关联规则挖掘旨在从数据中发掘隐藏于不同对象或变量间的关联关系,该过程一般分成频繁项集挖掘和生成规则的两个阶段,而当中主要是频繁项集挖掘阶段耗费大量的时间和空间资源,一度成为关联规则挖掘的性能提升的瓶颈。因此继Agrawal提出Apriori算法后,就有学者不断提出新的频繁项集挖掘算法或是在已有的算法基础上做出改进和优化,一度成果卓著。然而随着大数据时代的到来,数据规模成指数级别的增长,以往的单机、串行的算法已经不再能胜任了。所幸,近年来诞生了以Hadoop、Spark为代表的优秀的分布式计算平台,其中Spark又在迭代计算方面远胜于Hadoop,为关联规则挖掘算法的性能突破创造了新的契机。本文首先从对已有的关联规则挖掘算法的研究出发,总结并整合已有关联规则挖掘算法的改进策略和并行策略,针对Apriori、FP-growth、Eclat这三种经典关联规则挖掘算法做出改进、优化并基于Spark平台进行并行化实现,同时与对应的Hadoop版的实现算法进行充分的性能对比。其次,本文在传统的关联规则挖掘算法基础上进一步研究高效用项集挖掘问题,并基于Spark平台实现并行的高效用项集挖掘算法。最后考虑到数据规模更大的情况下,计算资源有限,可能单独的并行也都无法求得高效用项集,提出一种基于抽样策略的高效用项集挖掘算法。本文对关联规则挖掘算法以及其并行化和Spark并行计算平台进行了充分的研究,通过大量的实验和案例分析验证了所提方法的合理性。