基于多核心与多图形处理单元的数据挖掘算法研究与实现

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:q363342684
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数字化的时代,随着网络和信息技术的迅猛发展,各行各业都积累了大量的数据,利用这些数据挖掘出潜在规则从而更好的为生活和工作服务已经成为新的趋势,因此基于关联规则的数据挖掘技术在当今扮演着重要的角色。过去基于单核心架构的数据挖掘算法已经十分成熟,近年来随着硬件体系的高速发展,多核心(Multi-Core)架构的计算处理设备得到了极大的普及,特别是图形处理单元(GPU)运算能力显著增强,因此利用多核心CPU+GPU混合架构进行并行数据挖掘运算已成为新趋势。在数据挖掘相关的研究方法中,Apriori算法是最具代表性的关联式挖掘算法。传统的Apriori算法在数据量增大时会导致运算时间呈指数增长,因此效率极低。另外,将基于传统单核架构Apriori算法移植到多核心和多图形处理单元的混合架构上时,因运行环境及框架不同,无法达到利用平台资源达到加速的效果。因此为了改进Apriori算法的不足,使算法充分利用多核心CPU+GPU混合架构的运算资源,从而提高算法运算效率,研究基于多核心和多图形处理器混合架构的改进Apriori算法具有重大意义。Apriori算法可分成两个部分,分别为确认候选项目集以及缩小判断的范围,最终进行高频项目合并。针对冗余候选项目集的产生数目过多的问题,本文提出对低阶频繁集进行排序的策略,从而提高频繁集合并的效率。针对多核心架构,为使多核心之间达到负载均衡,本文提出将频繁集进行项目分群、排程分配、快速合并的策略,依照不同的项目分为不同的族群,缩减合并范围,将可组合成候选项目的多种方法强制收敛为单一方法,最终达到加速算法的效果。为了充分利用GPU的高浮点运算能力资源,本文利用并行的GPU进程分配机制,根据排序后项目的数量判断所需要的GPU线程数量,利用GPU计算门槛值,降低支持度计算的花费时间,减少检查和比对项目的次数,提高候选项目集确认时间,并将结果返回CPU中以进行下一阶的运算。为验证算法的正确性与高效性,本文分别利用虚拟与真实的数据库作为模拟实验数据平台,设计不同参数环境的实验。实验结果表明,在多核心平台以及多核心与多图形处理单元混合平台中,算法的运行表现良好,既高效性又准确性的挖掘出最终的频繁集关联规则,能够满足多核心与异构平台高效数据挖掘的需求,验证了基于多核心与多图形处理单元的数据挖掘算法的有效性与可行性。
其他文献
自从Wiener滤波以来,估计问题包括滤波、预测、平滑已经成为控制、通信领域关键的研究课题。但是Wiener滤波很难实现信号的实时处理,而Kalman滤波正好弥补了这一缺陷,当信号
随着计算机软件业的不断进步和互联网络的高速发展,软件保护遇到了前所未有的挑战,在此背景下,通过隐藏信息的存在而保护信息的软件水印技术应运而生。作为防盗版的技术手段,
数据融合是许多传统学科和新兴工程领域相结合而形成的一个新的前沿学科,超越了在军事领域的应用,已经在许多领域中得到了广泛的应用。人工神经网络是计算智能和机器学习研究
随着社会的不断进步和计算机技术的不断发展,以计算机技术为基础的数据可视化技术有了很大地发展。现代企业运转过程中产生和记录的数据越来越多,其中包括了企业外部业务数据以
工业过程的现场监控设备类型和数量很多,普遍使用了大量的传感器、执行器和控制器来完成工业现场流程的监控和自动化。随着工厂生产自动化和管理信息化发展的要求,如何获取、
特征抽取在模式识别领域是核心问题之一,其主要任务便是从原始样本信息中提取出最有利于模式分类的有效鉴别信息。在生物识别中,基于编码的方法,由于其具有很多优势,如精确度
信息化的飞速发展使各种文本信息呈现爆炸式增长,这给人们的工作、学习和生活提供了极大便利,但淹没于大量无用、重复信息之中的有用信息很难通过人工的方法被全面准确地提取出
通过对流量的测量和运行状况的分析,网络测量为网络管理、性能提升和结构优化提供参考依据。然而,由于高速互联网技术的迅速发展和大数据时代的到来,网络中的数据呈现爆炸式
设备缺陷管理是电厂设备管理的一个重要组成部分,是保证发电设备健康水平,保证发电设备安全,提高发电经济效益的重要措施。文章结合邯郸热电厂生产管理系统改造,分析了目前电
项目反应理论是一种现代心理测量理论,它建立在两个概念的基础上:受试者在某一测试试题上的表现,可由一组潜在特质来预测,并经常以测验所得分值作为潜在特质的估算;受试者的