基于Hadoop框架的大数据集连接优化算法

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：luck1

【摘要】

：

MapReduce是Google开发的一种并行分布式计算模型，已在搜索和处理海量数据领域得到了广泛的应用，Hadoop是它的开源实现。MapReduce编程模型因为其良好的可扩展性、高可用性以及

【作者】

：

孙惠

【机构】

：

南京邮电大学

【出处】

：

南京邮电大学

【发表日期】

：

2013年期

【关键词】

：

云计算 MapReduce Hadoop HDFS 连接 Bit-map DistributedCache 分区策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

MapReduce是Google开发的一种并行分布式计算模型，已在搜索和处理海量数据领域得到了广泛的应用，Hadoop是它的开源实现。MapReduce编程模型因为其良好的可扩展性、高可用性以及容错性而被广泛地运用于不同的领域，并且都获得很多好评。但是，由于MapReduce分布式编程框架自身的局限性，使得该模型进行表连接任务特别是多表连接任务时存在一定的不足。本文首先针对基于MapReduce框架的通用二路连接算法RSJ的不足提出了一种基于DistributedCache的改进优化算法。优化算法的思想是在进行RSJ算法进行表关联之前，将其中一个表的连接属性的值提取出来并且经过Bit-map压缩成较小的“背景”数据存放到一个小的文件中，然后经由DistributedCache机制传输到各个节点上。再进行RSJ算法实现二个表连接时，在Map阶段可以通过读取“背景”数据来过滤掉另一表中不满足连接条件的元组，从而减少mapper输出的数据来达到优化的效果。之后，为了解决多路连接过程中频繁出现中间结果集而带来巨大的I/O开销，本文采用了一种新的重定向mapper端输出策略——“一对多分区”策略，该策略的好处是：能够使得多个连接数据集中满足连接条件的元素都可以一次性发送到同一个reducer进行连接处理，从而实现一个MapReduce作业就能够完成多表连接操作。并且基于该思想对原MapReduce框架进行了改进。最后，在搭建的Hadoop并行计算平台上进行试验，以验证上述两种优化方案相对于之前的是否提高连接任务的执行效率。

其他文献

基于差别矩阵的属性约简算法

近年来数据库技术发展迅速,随着各类数据库被广泛的应用到企业、政府、科研机构等各个领域中,网络信息的规模呈现出大爆炸的趋势,人们对于这种大量的数据的分析和处理的能力

学位

粗糙集属性约简差别矩阵二叉树增量式

嵌入式人脸识别门禁系统的研究与设计

人脸识别(FaceRecognition)属于模式识别领域的重要课题之一，在门禁系统、安防系统、考勤系统、刑事案件侦破等领域都已有广泛的应用。随着社会的进步，科技的发展，人们在享受办

学位

门禁系统人脸识别嵌入式ARMLinux

THML5跨平台技术在视频点播系统中的研究与应用

伴随着计算机的发展，计算机的运行速度在不断提升，但是尺寸却变得越来愈小，而近几年更是在往小型移动设备方向不断发展。正是由于PC设备的不断完善以及移动设备的快速发展，普通用

学位

视频点播HTML5技术一站式编程跨平台系统开发

基于有限状态自动机的中文多模式匹配算法研究

模式匹配是计算机应用领域重要的研究方向之一，广泛应用于入侵检测、信息检索、生物科学等方面。随着计算机网络技术的飞速发展，信息量呈爆炸式增长，如何提高模式匹配算法的性能

学位

多模式匹配有限状态自动机邻接链表AC_SC算法

钼靶X线乳腺图像中的肿块检测与识别

乳腺癌是全世界女性最常见的恶性肿瘤之一,且其发病率和死亡率在近年呈现迅速增长的趋势,早期的发现与确诊是降低乳腺癌死亡率的关键,也是早期诊断的关键。其中,肿块是乳腺疾

学位

肿块双视图肿块检测双支持向量机特征选择

基于张量的单幅图像的超分辨算法研究

图像的边缘细节信息直接影响图像的视觉质量。传统的超分辨算法会出现边缘模糊和锯齿等现象，本课题分析了国内外的成果，把张量能保持图像局部结构信息的特征引入到超分辨中，根据

学位

单幅图像超分辨算法局部张量边缘结构运行环境

基于PSO算法无线传感器网络覆盖优化的研究

无线传感器网络(Wireless Sensor Network-WSN)作为物联网的“末梢神经”,是一种综合数据感知与采集、融合处理和信息传输功能于一体的无线自组织智能群体型网络信息系统,其

学位

覆盖优化粒子群优化最差机遇萤火虫改进融合混洗蛙跳算法融合

基于Tor-r方法的特征选择算法研究

随着信息技术的不断发展，信息获取能力的不断提高，人们往往需要分析和处理各种高维数据，如:海量web数据、遥感图像、微阵列数据等等。这些高维数据通常会导致机器学习算法的计算

学位

特征选择Top-r方法数据挖掘机器学习

基于Hadoop的改进的并行FP-Growth算法

频繁模式挖掘是数据挖掘领域的重要算法。频繁模式挖掘在事务数据库、时间序列数据库和许多其他类型数据库的挖掘研究中都得到了广泛的应用。然而，传统的Frequent-patternGrow

学位

Fp-Growth算法Hadoop框架并行化处理数据挖掘用户访问

基于正则化框架的脑网络构建与应用研究

近年来，大量研究表明，脑网络在结构和功能上具有一定的拓扑结构和组织特征，并能够提供稳定的生物标记，这为人们理解大脑机制提供了新的视角。因此，针对脑网络的研究吸引了大量学者

学位

脑网络建模方法正则化框架特征提取分类器

基于Hadoop框架的大数据集连接优化算法

其他学术论文