论文部分内容阅读
随着科技的进步,当今社会的信息量正在以爆炸的趋势增长,因此需要对这些大量的数据进行挖掘,为社会生活乃至国家发展找出有价值和有意义的相关知识。于是,产生了数据挖掘这一概念,而且数据挖掘如今已经广泛地应用于我们的日常生活中。数据挖掘这一概念对于当今社会来说并不陌生,它指的就是通过某种挖掘方法,从大规模的信息中发现并提炼出隐含在大规模信息数据中有价值的数据的过程。通过数据挖掘这项技术,人们能够从大量的数据中获得有意义和有用的知识,进而在社会生活中根据这些发现的知识对某些重要的事情做出决定和适当的判断。如今这样呈爆炸式增长的数据量反而给以往的关联规则算法带来了许多问题,比如效率较低、占用大量的存储空间等。因此,许多研究人员提出了分布式并行云计算技术去挖掘大数据中有价值的数据信息。然而为了使数据挖掘的速度得到充分的得以提高,就要用到分布式环境中大量的计算节点。当许多服务器工作在同一网段时,许多不同的任务在同一时间被传输,可用的传输带宽就会受限。无论对于网络内部或外部,这都导致了传输速度变慢,造成严重的传输延迟。综合分析如今分布式环境中数据传输的瓶颈问题以及FP-tree算法及其改进算法,本文采用了一种CSFP-tree算法,该算法在主节点上对数据集进行预处理,即对传统的频繁模式树进行压缩,使之成为一个占用空间更少的树,这样就可以减少数据在主节点和计算节点之间的传输时间。此外,提出了基于Spark分布式环境的关联规则挖掘方法,将预处理后的频繁模式树放到Spark环境中进行分布式并行化的关联规则挖掘,从而进一步提高了挖掘效率。相比于Hadoop,Spark环境是基于内存处理的,更加有利于FP-tree这种迭代算法,挖掘效率更优越。最后通过实验验证了本文提出算法的可行性和有效性,对今后有关于基于Spark的分布式数据挖掘的研究起到了一定的参考价值。