基于MapReduce数据倾斜问题的研究与策略

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：icanfly316

【摘要】

：

云计算和大数据一直是最近几年来最热门的话题之一,随着信息技术的不断发展,云计算和大数据为社会各个领域带来了一场技术革命,同时加上互联网的普及和国家对“互联网+”的推

【作者】

：

童兵

【出处】

：

合肥工业大学

【发表日期】

：

2004年期

【关键词】

：

MapReduce 倾斜数据水塘抽样负载均衡

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

云计算和大数据一直是最近几年来最热门的话题之一,随着信息技术的不断发展,云计算和大数据为社会各个领域带来了一场技术革命,同时加上互联网的普及和国家对“互联网+”的推动,人们都加入到对云计算大数据的技术研究中来。在这样的背景下,每天都伴随有大量的信息产生,使得数据呈指数增长,而如此大规模数据背后蕴藏的无限价值也值得人们去挖掘,国内外的很多著名IT企业也都将其纳入为首要战略。Map Reduce作为一种大数据环境下的并行计算编程模型,其高效可靠的特性被应用于各个领域,但是Map Reduce本身也存在一定的局限,当它处理分布不均匀的数据时,经过Map阶段后Reducer节点所分配到的任务负载不均衡,导致出现“木桶效应”,某些节点负载轻完成后即进入空闲状态,而负载重的节点仍在计算状态而完成时间长,从而影响整体作业的工作效率,降低集群工作性能。本文针对上述问题做出研究并提出相应策略,策略第一阶段使用一种水塘抽样算法对原数据进行抽样,通过开启一个抽样预处理作业来统计样本数据中key值频次分布并估算出整体数据的分布,同时使用一致性Hash算法代替默认的Hash分区算法进行分区,使得抽样预处理作业的Reducer达到一定的均衡。策略第二阶段使用一种改进的Partitioner算法根据预处理计算的中间结果制定出合理的分区方案,并在最后的实验中用作业的总体运行时间和Reducer节点负载均衡情况两种指标进行验证,并与传统的抽样方法及默认的Hash分区函数进行对比,实验表明本文方案在处理具有倾斜属性的数据时具有更好的均衡效果。

其他文献

单相异步电动机旋转振动频谱特征分析

对单相异步电动机额定状态下的旋转振动进行了实际测试，发现电机运行时存在明显的旋转振动，且振动频率是基波频率的两倍。对旋转振动产生的机理进行了剖析，发现椭圆旋转磁场的幅

期刊

计量学旋转振动椭圆磁场频谱分析调压调速metrology rotary vibration elliptical magnetic field spe

汽液两相流自调节水位控制器在高压加热器上的应用

1 概述汽轮机冷源损失是影响火电厂循环热效率的一个重要因素 ,而高压加热器的重要作用就是能够有效地降低冷源损失,最终提高电厂的循环热效率 . 高压加热器本体是由筒体、

期刊

汽液两相流自调节水位控制器高压加热器汽轮机火电厂

综合实践活动中培养学生科学素养探微

<正> 随着科学技术的不断更新,信息社会的飞速发展,培养学生的科学素养已成为基础教育课程改革所关注的重要问题。综合实践活动是新一轮课程改革创生的新课程,是基于学生直接

会议

综合实践活动科学素养

论网络隐私权的保护

期刊

网络隐私权隐私保护隐私权保护网络时代互联网个人隐私第四媒体立法保护行业自律自我保护

中国纸质股票图案设计及应用研究

在我国证券文化的历史长河中,纸质股票占据着重要地位,它所展现出的图案设计艺术是一片崭新的领域,深入的研究与创新实践是其发展的重大使命。本文以中国纸质股票为研究对象,收集了各个时期的纸质股票二百多张,通过田野调查、图像学研究、文献研究和实践创作等方法,将纸质股票置入历史大环境中,探析其从清末时期到改革开放时期的图案设计艺术。在研究的过程中,笔者将纸质股票图案设计分为主景图案、辅助图案和整体设计,深入

学位

纸质股票图案设计创新应用

ClO2氧化/粉煤灰吸附协同体系处理含酚废水的实验研究

利用ClO2氧化/粉煤灰吸附协同体系对一实际含酚废水进行了处理实验研究。结果表明,对于COD为250mg/L、浓度为30mg/L的1000mL含酚废水,当溶液的pH=5.5,ClO2用量40mg/L,粉煤灰

会议

ClO2氧化粉煤灰吸附协同含酚废水

肿瘤病人精神心理问题的识别

<正>肿瘤是严重危及生命健康的疾病,由此引发的精神心理问题十分常见,其重要性愈来愈被临床医生所认识,但由于同时具备肿瘤学和精神病学知识的专家不多,许多精神心理常不能得

会议

基于MapReduce数据倾斜问题的研究与策略

其他学术论文