论文部分内容阅读
信息技术的发展带来了数据量的爆炸性增长,人们面临的问题不是缺乏足够的信息可以使用,而是面对如此多的数据如何找到有价值的信息。对这一问题,数据挖掘显示出了强大的生命力,数据挖掘能够找出数据之间的潜在联系。关联规则是数据挖掘中的一项重要内容,它反映了一个事物和其他事物之间的依赖或关联。从广义上讲,关联分析是数据挖掘的本质。但是随着关联规则的广泛应用,很多方面不能满足现在的需要,如何提高关联规则算法的效率、适应性、可用性等方面变得日益重要。自从Google推出云计算概念以来,随后亚马逊、微软、惠普、雅虎、英特尔、IBM等公司都宣布了自己的“云计划”,云计算是未来3-5年内全球范围内最值得期待的技术革命。云计算的设计理念是让资源动态分配、按需服务,并且以低成本处理海量信息。云计算是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等技术和网络技术发展融合的产物。正是因为云计算有强大的数据处理能力,通过借助云计算中的一些技术运用到数据挖掘中,将会明显的提高效率。本文的主要工作如下:(1)介绍了云计算中的一些相关技术和一些开源云计算如Eucalyptus、Enomaly ECP、Sector/Sphere和Hadoop,重点分析了Hadoop中的核心技术HDFS、MapReduce和HBase。(2)针对传统的关联规则算法即Apriori的一些缺陷和Hadoop在大的集群中表现出来的优势,设计出了MapReduceApriori算法,它用HDFS分布式文件系统存储数据,以MapReduce方式实现并行处理。该算法能在海量数据中发现频繁项集。实验表明,它对海量数据的处理效率明显比传统算法高,且表现出了很好的加速比。(3)以MapReduce为基础,设计出了MapReduceGenRules算法,它的处理过程简化为Map和Reduce两个阶段,在集群中可以并行的产生规则,大大的缩短了计算时间,表现出了良好的性能。