基于MapReduce的迭代型分布式数据处理研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:along_1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代即数据的时代,随着数据规模的急剧增加,数据处理在诸多领域已远远超出了个人电脑的能力,越来越呈现出海量和并行的特点。而传统的并行编程技术如MPI、网格计算等存在开发复杂,扩展性不好等问题,无法满足日益增长的大规模数据处理的要求,迫切需要一种新的更加优秀的大规模数据处理编程模型。面对挑战,MapReduce应运而生。MapReduce是由Google首先提出的一种用于大规模数据集并行运算的分布式编程框架,具有编程简单,容错性好,易于扩展等特点,极大地简化了集群上的海量数据并行处理实现。自其诞生的那一刻起,MapReduce就受到了高度关注,吸引了大量的相关研究,并在越来越多的实际场景中得到了广泛应用。然而,现有的传统MapReduce实现诸如Hadoop和Sphere,不能有效的支持迭代型数据处理,而迭代计算在现实中是一类非常重要的应用。在科学计算、数据挖掘、信息检索、机器学习等领域,很多算法都是运用多次迭代实现的。这使得如何提高MapReduce的迭代型数据处理效能成为当前一项十分紧迫的研究课题,具有重要的实用价值。针对这个问题,本文进行了深入分析和研究,并在Hadoop的基础上进行扩展和修改,提出了一种改进的MapReduce框架,myHadoop。myHadoop通过改进编程模型和任务调度程序,采用新的任务并行策略,增加循环控制模块以及数据缓存模块,不仅扩展了MapReduce对迭代程序的编程支持,还大大改善了其执行效率。本文首先分析了MapReduce对迭代型程序的处理方法和存在问题,然后详细描述了myHadoop的设计和实现,最后选取几个典型应用进行了实验,将myHadoop与Hadoop的迭代型分布式数据处理效率进行分析对比,并讨论了myHadoop在应用中Map任务分割个数的设置以及非迭代型数据处理的问题。
其他文献
近年来,随着互联网的不断发展,图像在网络通信中扮演着愈发重要的角色,互联网的开放性也对图像信息的安全传输提出了新的要求。基于信道编码的信息隐藏技术是一种新的信息安
水声传感网络(Underwater Acoustic Sensor Network,UWASN)在海洋环境监测、资源开发等领域具有巨大的应用前景,因而引起各界的广泛关注。由于水声信道的传播速率低,误比特率
数字信号在信道传输时,由于噪声、衰落以及人为干扰等,将会引起差错。香农证明如果信源的速率低于信道容量,可采用信道编码的方法,以任意小的差错概率在有扰信道上传输信息。
近年来,随着移动智能设备的飞速发展,无线用户数量呈指数倍增长,人们对无线通信的需求也不断增大,有限的许可频段资源已经越来越无法满足人们的需求。在这种状况下,有人提出
随着科学技术的飞速发展,高精度激光打印机和扫描仪得到了广泛的应用,证件、票据等印刷品的复制变得更加容易,印刷品的版权保护问题变得非常重要。因此研究印刷品的抗打印扫描防
近年来,数据中心网络的结构不断地发生变化,新的技术也层出不穷。如今的数据中心网络已演变成一个大规模的多租户网络,存在百万级的虚拟机和大量的租户,面临在网络资源有限的
火灾是常见的严重自然灾害之一。对其进行早期实时的监控是火灾消防领域的研究重点。现有的火灾传感器,如感烟、感温、感光探测器,它们分别利用火焰的烟雾、温度、光的特性来
水声通信作为主要的水下远距离无线通信方式,在很多领域有着重要的应用。然而水声通信的研究面临着很多方面的困难,如:水声信号随着信号频率的增加而衰减;水声信号在传播过程
深空探测是人类进行的航天活动中最重要的部分之一,是一个国家科学技术水平和综合国力的集中体现。在深空任务中,通信系统承担着传输遥测遥控指令、返回探测数据等关键工作。由
RFID(Radio Frequency Identification)作为物联网技术的新潮有效地解决了物联网感知层面的难题,通过将物质世界与信息网络互联为人们提供了有效、准确、实时的数据信息。然