论文部分内容阅读
随着互联网的迅速发展,网络中每天都会有TB级以上的数据被产生,单一的主机已经无法负担起海量数据的存储和运算。因此使得大数据、云端运算、数据挖掘等相关议题成为近几年非常热门的议题。而数据挖掘算法更是被广泛应用在不同领域。本论文针对一个在频繁项集挖掘中具代表性的经典算法─Apriori算法运用在巨量数据时可能产生的问题,进行深入研究与探讨,发现以往基于Hadoop提出的Apriori算法会随着数据库的数据量的不断增加及支持度缩小,计算时间将会大量增加。运算中内存的消耗和数据传输的延迟直接影响运算效率。因此,本论文提出了“一个基于MapReduce计算模型的高效率频繁项集挖掘算法”,通过减少低频项集的产生,进而减少内存消耗和数据传输量。为了进一步提高内存利用率和降低数据传输量,基于IOMRA算法提出了优化算法,“基于云计算的Apriori传输效率优化算法”,改进算法中Key/Value对的存储形式,进而减少内存负载量,减少运算中数据传输量,有效提高运算效率。本论文中,通过对原始数据的预处理,再利用交易数据库中每笔交易记录的长度,确定Map端最大合并候选项集的阶次,从而有效减少非高频项集的产生。并且,通过改进Apriori算法中Key/Value对的存储形式,使得Apriori算法在MapReduce的运算中,能够大量减少主机内存的负载量,减少计算机之间的数据传输量,有效地提升运算的效能。