基于抽样分区解决MapReduce中的数据倾斜问题

被引量 : 0次 | 上传用户:zhlxqfenglin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算作为信息时代一种新兴的服务模式,已成为二十一世纪互联网最有影响力的技术之一。近几年在互联网技术排行榜中都高居前列,国内外很多著名IT公司都把云计算作为自己的首要战略发展技术。云计算已经渐渐开始改变了人们的工作方式和传统软件工作的流程。云计算更是以IAAS(基础架构即服务),PAAS(平台即服务),SAAS(软件即服务)的模式为大众提供廉价、方便、高效的服务。随着互联网的高速发展,存储数据量和传输数据量相比之前都呈几何倍数增长。从2006年到2010年,全球信息总量增长6倍以上,2010年人类生产出1.2ZB的信息增长率为50%,而到了2020年,这个数字将会变为35ZB。传统的存储方式设计复杂,价格昂贵,扩展性差,需要专业人士维护无法跟上数据增长的需求。对于PB乃至更大的数据集,以往单点式存储、磁盘阵列等存储方式已经无法适应数据爆炸式增长,以前分散的各自为政的构建方式,很容易形成信息孤岛。海量数据的处理和分析已成为一个重要问题。MapReduce作为当今一种处理分布式海量数据的工具,由于其“易扩展”、“容错性高”、“价格低廉”等优点已被广泛应用到很多领域。但是由于设计时采用的key值统一分配到Reduce端的算法,当处理数据存在倾斜会导致处理数据分布不平衡从而产生“短腿”作业,最终影响整体的运行效果。当今解决这个问题主要都是采用异步Map和Reduce方法提前收集key值的分布情况,然后制定分配方案,但是这样会浪费很多时间。论文将研究在数据倾斜时,如何高效的分配中间key值保证Reduce端数据的平衡。利用专门的抽样程序统计key值的整体频率分布情况,提前制定分配策略。然后论文将分配策略应用到Map到Reduce的分配过程中。这种设计不仅能提供一种平衡的数据分配模式,而且能提高MapReduce同步性能。对抽样方式提供了两种方案:分段组合优化和分段分割优化。实验的结果显示,第一种方法适合数据比较少的情况,当数据倾斜严重时第二种方法使数据更平衡更节省整体运行时间。
其他文献
机电管理是综合性的人与物的管理,是煤矿重要管理体系之一,是煤炭企业提高经济效益的重要条件。近年来,煤矿的机械化程度不断提高,由于煤矿生产条件和生产环节的复杂性,机电
网络时代,网络成了谣言肆意传播、蔓延的助推器,民众通过网络等手段传播、扩散谎言是公共危机事件产生的起点;公共危机事件随着谎言通过网络等的传播和蔓延而发酵、酝酿,最终
兵团团场统分结合的双层经营体制是一种不同于农村双层经营体制的制度安排,尽管有其相对的优势,但在现实中仍然面临着一定的问题,如"统"的过死、土地承包经营的长期化与承包
目前,光伏发电、风力发电、生物质发电等分布式发电技术快速发展,分布式发电并网要求势在必行。为了避免分布式电源并网对大电网造成的冲击,研究人员提出了微电网概念,即将分
农村家庭由于受家庭经济状况、子女大学毕业后找不到工作的风险等因素的限制,其中部分家庭被迫在子女初中毕业后即做出了放弃高中教育机会的抉择。调查分析表明:农村家庭承担
为了顺应时代的发展和技术的需求,满足汽车用结构件重量轻、强度高、成本低等要求,达到既节能环保又安全可靠的目的,高强度钢板的热成形技术结合热锻造和冷冲压的工艺优势,已
目的:了解ICU护士心理健康及心理咨询主观需求状况,根据调查分析结果,探讨ICU护士的基本特征、身心状况与心理咨询需求的关系及影响需求的内在因素,为心理专业工作者及护理管理者
企业战略是企业面向发展,考虑未来,为寻求和维持持久竞争优势而做出的有关全局的策划和谋略。企业如果没有战略管理,它必将是个即将消失的企业;企业如果忽略战略管理,它必将是
文章以青海省玉树县巴塘乡的田野调查为依据,结合历史材料全面展现藏区天葬的起源及演变过程,指出今日藏区的天葬与原始野葬存在一脉相承的关系:在遗体处理的手法方面更多地
被称为"中国竹藤草芒编织工艺品之乡"的广西都安县,利用本地优势竹、藤、草、芒资源,生产出上万种受外国客商青睐的产品,常年出口欧美、日本等国家及香港地区。但是都安编织