基于MapReduce的迭代型分布式数据处理研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：along_1979

【摘要】

：

信息时代即数据的时代,随着数据规模的急剧增加,数据处理在诸多领域已远远超出了个人电脑的能力,越来越呈现出海量和并行的特点。而传统的并行编程技术如MPI、网格计算等存在

【作者】

：

冯新建

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2013年期

【关键词】

：

MapReduce 分布式迭代 Hadoop myHadoop

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息时代即数据的时代,随着数据规模的急剧增加,数据处理在诸多领域已远远超出了个人电脑的能力,越来越呈现出海量和并行的特点。而传统的并行编程技术如MPI、网格计算等存在开发复杂,扩展性不好等问题,无法满足日益增长的大规模数据处理的要求,迫切需要一种新的更加优秀的大规模数据处理编程模型。面对挑战,MapReduce应运而生。MapReduce是由Google首先提出的一种用于大规模数据集并行运算的分布式编程框架,具有编程简单,容错性好,易于扩展等特点,极大地简化了集群上的海量数据并行处理实现。自其诞生的那一刻起,MapReduce就受到了高度关注,吸引了大量的相关研究,并在越来越多的实际场景中得到了广泛应用。然而,现有的传统MapReduce实现诸如Hadoop和Sphere,不能有效的支持迭代型数据处理,而迭代计算在现实中是一类非常重要的应用。在科学计算、数据挖掘、信息检索、机器学习等领域,很多算法都是运用多次迭代实现的。这使得如何提高MapReduce的迭代型数据处理效能成为当前一项十分紧迫的研究课题,具有重要的实用价值。针对这个问题,本文进行了深入分析和研究,并在Hadoop的基础上进行扩展和修改,提出了一种改进的MapReduce框架,myHadoop。myHadoop通过改进编程模型和任务调度程序,采用新的任务并行策略,增加循环控制模块以及数据缓存模块,不仅扩展了MapReduce对迭代程序的编程支持,还大大改善了其执行效率。本文首先分析了MapReduce对迭代型程序的处理方法和存在问题,然后详细描述了myHadoop的设计和实现,最后选取几个典型应用进行了实验,将myHadoop与Hadoop的迭代型分布式数据处理效率进行分析对比,并讨论了myHadoop在应用中Map任务分割个数的设置以及非迭代型数据处理的问题。

其他文献

基于Logistic序列与LDPC码的图像隐藏算法研究

近年来,随着互联网的不断发展,图像在网络通信中扮演着愈发重要的角色,互联网的开放性也对图像信息的安全传输提出了新的要求。基于信道编码的信息隐藏技术是一种新的信息安

学位

Logistic序列LDPC码图像隐藏嵌入算法编译码方式

水声传感网络媒体接入控制协议研究

水声传感网络(Underwater Acoustic Sensor Network,UWASN)在海洋环境监测、资源开发等领域具有巨大的应用前景,因而引起各界的广泛关注。由于水声信道的传播速率低,误比特率

学位

水声传感网络媒体接入控制长传播时延空闲资源利用按需TDMA

循环码的盲识别技术研究

数字信号在信道传输时,由于噪声、衰落以及人为干扰等,将会引起差错。香农证明如果信源的速率低于信道容量,可采用信道编码的方法,以任意小的差错概率在有扰信道上传输信息。

学位

信道编码循环码欧几里德算法盲识别

LTE-U系统的容量分析和用户驻留研究

近年来,随着移动智能设备的飞速发展,无线用户数量呈指数倍增长,人们对无线通信的需求也不断增大,有限的许可频段资源已经越来越无法满足人们的需求。在这种状况下,有人提出

学位

LTE-U网络容量用户驻留小区选择准则离散马尔科夫模型信道绑定吞吐量

基于半色调图像的抗打印扫描数字水印算法研究

随着科学技术的飞速发展，高精度激光打印机和扫描仪得到了广泛的应用，证件、票据等印刷品的复制变得更加容易，印刷品的版权保护问题变得非常重要。因此研究印刷品的抗打印扫描防

学位

数字水印误差扩散边缘检测噪声可见性函数滤波

基于SDN的VXLAN优化机制研究

近年来,数据中心网络的结构不断地发生变化,新的技术也层出不穷。如今的数据中心网络已演变成一个大规模的多租户网络,存在百万级的虚拟机和大量的租户,面临在网络资源有限的

学位

软件定义网络SDNOpenFlowVXLAN Network虚拟机迁移负载均衡

红外图像型智能火灾探测系统的研究与实现

火灾是常见的严重自然灾害之一。对其进行早期实时的监控是火灾消防领域的研究重点。现有的火灾传感器,如感烟、感温、感光探测器,它们分别利用火焰的烟雾、温度、光的特性来

学位

火灾探测红外测温图像处理OpenCV燃烧物识别

滤波多音调制下的水声信道估计

水声通信作为主要的水下远距离无线通信方式,在很多领域有着重要的应用。然而水声通信的研究面临着很多方面的困难,如:水声信号随着信号频率的增加而衰减;水声信号在传播过程

学位

水声通信滤波多音调制信道建模信道估计压缩传感信道均衡

基于喷泉编码的深空通信文件传输协议

深空探测是人类进行的航天活动中最重要的部分之一，是一个国家科学技术水平和综合国力的集中体现。在深空任务中，通信系统承担着传输遥测遥控指令、返回探测数据等关键工作。由

学位

深空通信喷泉文件传输协议喷泉编码CFDP

基于MBI防碰撞算法的理论分析建模与自适应设计实现

RFID(Radio Frequency Identification)作为物联网技术的新潮有效地解决了物联网感知层面的难题,通过将物质世界与信息网络互联为人们提供了有效、准确、实时的数据信息。然

学位

物联网RFIDMBI滑动窗改进型MBI算法自适应MBI算法

基于MapReduce的迭代型分布式数据处理研究

其他学术论文