GPU上基于Hadoop的高效连接操作算法研究

被引量 : 0次 | 上传用户:beijiqie123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代商业数据库领域中,日益增长的数据为数据查询以及数据存储带来了巨大的压力。越来越多的研究关注于如何有效的在大数据集合上进行查询操作。由于目前中央处理机(CPU)的发展日益缓慢,软件上对算法的优化已经到了瓶颈。越来越多的关注集中在利用图像处理器(GPU)作为协处理器加速数据库操作。GPU具有强大的计算能力以及高并行性,十分适用于处理计算密集型任务。连接操作作为现代数据库系统中最为重要的操作之一,有很多研究关注于利用GPU加速连接操作。现有GPU加速嵌套循环连接操作研究成果并不能够很好的适用于较大数据表的连接操作。基于此,本文主要研究如何利用GPU有效地加速大数据表上的嵌套循环连接操作,本文通过将Hadoop与GPU结合,实现了等值连接中的嵌套循环连接、哈希连接以及非等值连接。在处理等值连接时,通过预过滤仅仅将可连接的元组传递到GPU上进行实际的连接操作。本文是第一个利用Map-Reduce与GPU结合加速非等值连接操作的。同时,通过数据预过滤,本文所提方法比现有GPU加速方法能够处理更大数据表的等值连接操作。本文提出的算法能够在不引入额外的开销情况下,更加准确地估计出结果的个数,为其分配适当的存储空间。经过严密的实验表明,本文提出的方法相比于传统的GPU加速等值连接操作算法,能够获得0.5至1倍的加速效果。同时在人工合成数据集上,本文所提加速连接操作算法的GPU版本相比于CPU版本能获得0.3至1倍的加速效果。
其他文献
在物联网迅速普及的今天,心电图(Electrocardiogram,ECG)信号身份识别在可穿戴设备上的应用有巨大的前景。由于可移动设备的特点,要求ECG信号采集设备的集成度较高,采集的数
象棋在博弈时变化万千,无能是中国象棋还是国际象棋,都经历了几千年而经久不衰。随着现代计算机技术的飞速发展,各种象棋软件的出现,但到目前还没有人能开发出一套必胜的象棋
随着超大规模集成电路(VLSI)设计技术和集成工艺的不断发展,芯片上的处理单元的集成度越来越高。这些被集成的处理单元以网状连接形式形成阵列。对于数量众多的处理单元来说,如
本文提出一种基于GUI操作的通用增强现实开发模型-GPDMAR,并以此模型为指导,在Windows平台上开发了面向非专业人员的易用型开发工具EasyAR系统。另外,作者还利用EasyAR实现了
自20世纪90年代中期由Vapnik等人提出支持向量机(SVMs),由于其具有通用性、鲁棒性以及良好推广性等特点,已经成为解决分类、回归等统计学习问题一种流行的技术,并广泛应用于数据
随着互联网技术的飞速发展,网络中传输的多媒体信息数量也在不断增加。同时,人们对网络传输质量的要求也在不断提高。然而,在现实网络中却存在诸多不稳定因素,如丢包或位错误等,这
计算机的普及和互联网的快速发展,使得数字图像常常被非法复制并随意传播,其版权保护需求日益迫切。目前,用于图像版权保护的技术主要有两种:数字水印技术和基于内容的图像拷贝检
微电子技术、计算技术和无线通信等技术的进步,推动了低功耗多功能传感器的快速发展,使其在微小体积内能够集成信息采集、数据处理和无线通信等功能。目前,无线传感器网络广泛应
声学特征的提取是语音识别(包括说话人识别)的关键技术之一,目的是通过对语音信号进行数字处理,将其表示成反映语音本质特征信息的参数序列。当前,包括反映人的听觉感知特性的、具
上世纪90年代,Dietterich等人在药物活性预测问题的研究中提出了多示例学习的概念。在该学习模型中,训练样本的歧义性比较特殊,使得多示例学习模型与传统的机器学习模型有很