面向MapReduce的中间数据分区策略与传输优化研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:tsks1848
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,数据呈现爆发性的增长。大数据时代已经来到,大数据中蕴藏着大价值,是21世纪的“钻石矿”。MapReduce并行计算框架是主流的大数据处理技术。然而MapReduce的中间数据分区与传输是影响整体性能的主要瓶颈:由于难以提前获得中间数据的分布规律,默认分区策略往往会造成Reducer端的数据分区不均衡,导致Reducer计算任务的负载不均衡;此外,Reducer端需要等待Mapper端任务完成后才能得到中间数据,导致较大的数据传输延迟。以此为背景,本论文对MapReduce并行计算框架的中间数据分区与传输方法进行了研究,以实现数据的均衡分区并降低传输延迟,主要研究内容包括:(1)针对中间数据的分区倾斜问题,提出了一种面向MapReduce的迭代式数据均衡分区策略。将Mapper端要处理的数据块细分,以迭代的方式循环处理;根据已迭代轮次的微分区分配结果决定当前迭代轮次的微分区分配方案,通过不断调整历次迭代分区产生的数据倾斜,逐步实现数据分区的均衡性;并给出了迭代式数据均衡分区机制,包括分区时机、分区准则、分区评估以及基于贪心策略的分区算法。(2)针对中间数据的传输延迟问题,提出了一种面向MapReduce的数据传输流水线优化方法。通过将Mapper端的有效计算、中间数据传输和Reducer端的有效计算划分成若干阶段,以流水线的方式重叠执行,隐藏数据传输导致的延迟开销,提高MapReduce框架的数据处理性能;并给出数据传输流水线优化机制,包括传输时机、合并方式和发送准则。(3)在公开数据集上基于Spark集群与Actor模型分别对迭代式数据均衡分区策略与数据传输流水线优化方法进行了性能评估。基于三组数据集与三种大数据算法,分别评价数据分区策略与传输优化方法中参数对MapReduce整体性能的影响,然后再与其他方法对比。当数据集本身倾斜度高,如BST数据集,运行PageRank算法时迭代式数据均衡分区策略的整体性能比默认分区策略平均提高了19.7%;当算法Shuffle数据规模量大,如Inverted Index算法,计算Konect数据集时数据传输流水线优化方法的整体性能比默认传输框架平均提高了45.9%。
其他文献
特效电影通过改变观影方式为观众带来新的观影体验和视觉吸引。国内外特效电影在各自不同的社会文化背景和差异化思维下,从电影叙事策略与视觉代入感两个微观角度呈现出一定
随着现代科技的发展,电影逐渐开始运用计算机技术,于是一个崭新的电影世界展现在了人们的眼前。它给电影带来的已经不是单纯的视觉上的刺激,而是对整个产业文化的影响。
<正>2011年化学课程标准要求我们注重STS教育和基于真实情境的教学.所谓STS教育,就是指我们在教学过程中体现科学、技术与社会发展的密切联系.在我们的化学课堂中要想体现这
土壤盐碱化的面积正逐年扩大,盐碱化程度也越发严重,已成为影响生态环境安全和农业生产的一个主要非生物胁迫因素。田菁具有较好的盐碱地改良能力,是治理盐碱地的先锋作物之
在信息化迅速发展的时代背景下,中小学生使用电子通信工具已经司空见惯,手机里面内置APP的游戏应用软件已成为中小学生玩手机的主要对象。笔者就目前市面上中小学生经常使用
推进农业供给侧结构性改革是促进农业加快提质增效转型升级的重要方向。河南是农业大省,以谷子为代表的杂粮作物在全省丘陵旱作区农业生产中占有重要地位。随着国内大宗粮食
噪声是煤矿的主要职业危害因素之一,其不仅会影响煤矿工人的身体健康,而且还会影响煤矿安全生产。因此,根据我国煤矿噪声危害现状,建立起一套可行的预防措施是必要的。文章提
<正>小鼠的基因组中包含了1000多个气味受体基因,这些基因能够帮助小鼠嗅到周围环境中的气味,近日一项刊登于国际杂志Neuron上的研究报告中,来自马普研究所等多个机构的研究
通过万寿菌根部生物碱类提取物对西瓜枯萎病菌抑制作用的研究,结果表明,在万寿菊根中分离出5类具有抑菌活性的生物碱,其中水溶性生物碱对西瓜枯萎病菌菌丝生长有较好的抑制作用
当信用证规定保险单据空白背书而未规定被保险人时,建议由出口商以自身为被保险人进行投保,并对保险单据空白背书,以达到单证相符并保障贸易双方的利益。保险单据作为国际贸