论文部分内容阅读
在数字化的时代,随着网络和信息技术的迅猛发展,各行各业都积累了大量的数据,利用这些数据挖掘出潜在规则从而更好的为生活和工作服务已经成为新的趋势,因此基于关联规则的数据挖掘技术在当今扮演着重要的角色。过去基于单核心架构的数据挖掘算法已经十分成熟,近年来随着硬件体系的高速发展,多核心(Multi-Core)架构的计算处理设备得到了极大的普及,特别是图形处理单元(GPU)运算能力显著增强,因此利用多核心CPU+GPU混合架构进行并行数据挖掘运算已成为新趋势。在数据挖掘相关的研究方法中,Apriori算法是最具代表性的关联式挖掘算法。传统的Apriori算法在数据量增大时会导致运算时间呈指数增长,因此效率极低。另外,将基于传统单核架构Apriori算法移植到多核心和多图形处理单元的混合架构上时,因运行环境及框架不同,无法达到利用平台资源达到加速的效果。因此为了改进Apriori算法的不足,使算法充分利用多核心CPU+GPU混合架构的运算资源,从而提高算法运算效率,研究基于多核心和多图形处理器混合架构的改进Apriori算法具有重大意义。Apriori算法可分成两个部分,分别为确认候选项目集以及缩小判断的范围,最终进行高频项目合并。针对冗余候选项目集的产生数目过多的问题,本文提出对低阶频繁集进行排序的策略,从而提高频繁集合并的效率。针对多核心架构,为使多核心之间达到负载均衡,本文提出将频繁集进行项目分群、排程分配、快速合并的策略,依照不同的项目分为不同的族群,缩减合并范围,将可组合成候选项目的多种方法强制收敛为单一方法,最终达到加速算法的效果。为了充分利用GPU的高浮点运算能力资源,本文利用并行的GPU进程分配机制,根据排序后项目的数量判断所需要的GPU线程数量,利用GPU计算门槛值,降低支持度计算的花费时间,减少检查和比对项目的次数,提高候选项目集确认时间,并将结果返回CPU中以进行下一阶的运算。为验证算法的正确性与高效性,本文分别利用虚拟与真实的数据库作为模拟实验数据平台,设计不同参数环境的实验。实验结果表明,在多核心平台以及多核心与多图形处理单元混合平台中,算法的运行表现良好,既高效性又准确性的挖掘出最终的频繁集关联规则,能够满足多核心与异构平台高效数据挖掘的需求,验证了基于多核心与多图形处理单元的数据挖掘算法的有效性与可行性。