基于MPI和MapReduce的分布并行计算研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:qq310474070
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
并行计算是提高计算机系统计算速度和处理能力的一种有效手段。MPI是目前开发并行应用程序的主要编程模型——消息传递编程模型的事实标准。Hadoop是一个在集群上处理大级别数据量的分布式并行编程框架,实现了Google的MapReduce编程模型,是目前最为广泛应用的开源云计算软件平台。随着PC机性能的大幅度提高和网络技术的迅速发展,并行计算平台在普通PC机构建的机群上能够很好的应用,使得并行计算得以普遍应用。   本文从应用和研究的角度,对MPI并行编程模型和Hadoop分布式编程框架的相关理论进行了详细的分析,设计了基于MPI的分子动力学模拟,对Hadoop作业调度算法进行了改进。论文主要的工作如下:   1.介绍了并行计算的相关理论,论述了MPI主要的接口函数、通信机制、程序设计平台搭建等,研究MPI实现并行计算的机制和方法,对云计算、Hadoop的分布式计算模型MapReduce和分布式文件系统HDFS、Hadoop容错机制进行分析和研究,总结了MPI与Hadoop的相同和不同点。   2.设计了基于MPI并行编程模型的分子动力学并行模拟,在此基础上通过改变模拟参数进行实验。通过不同时间步数串行程序和并行程序耗时比较,分析模拟规模和模拟时间增加的关系,通过多节点多进程并行程序实验结果分析节点个数和进程个数对计算时间的影响和系统的并行加速比。另外,本文通过通信时间分析计算节点个数和计算耗时的下降速率之间的关系,分析MPI聚合通信函数的执行效率。   3.将Linux进程调度策略的时间片轮转和动态优先级相结合的调度思想应用在Hadoop作业调度中,考虑公平原则和分布式计算的本地性原则,结合失效节点任务重新分配的问题,在PBWRR算法的基础上给予改进,并且给出算法的模拟实验。通过算法性能评测,改进算法能较好的实现多个作业按照优先级、大小和等待时间公平的调度,系统利用率较高,并且能很好的处理失效节点任务的重新分配。
其他文献
随着社会的飞速发展,越来越多的信息交互需要通过互联网来承载。当前,互联网承载的数据类型已从以前的纯文本数据发展为现在的语音、视频、文本等多类型数据了;同时,网络结构类型
近年来,基于人脸图像的生物特征识别研究取得了巨大的发展。同其它的生物特征识别相比,人脸特征具有自然性、方便性和非接触性等优点,使其在安全监控、身份验证、人机交互等
移动Ad Hoc网络由一组带无线收发装置的移动节点组成,它不需要依靠固定基础设施,没有任何中心实体,是多跳、自组织的对等通讯网络。由于其组网灵活,使用方便,因此得到了国际
CPC(Cost-per-click)模式下的“恶意点击”,手段日益广泛、性质日益恶劣,已成为网络中在线广告的顽疾。防恶意点击技术是IT行业中新兴的研究课题。而图形验证码技术是近年来
由于纹理的普遍性和复杂多样性,使人们很难对其进行有效的分析和十分准确的识别,这也促使人们对图像的纹理分析的进一步研究。目前,对图像的纹理分析是国内外的一个热点研究
并行化支持向量机是为了适应在海量数据中进行大规模数据挖掘的需求而产生的数据挖掘技术。在海量数据中进行数据挖掘,目前只有两种相对独立而且有效的方法:在线学习(Online
视网膜中的结构和病变区域蕴含着丰富的信息,这些信息与人类的健康息息相关。微动脉瘤是早期糖尿病视网膜病变的主要病症,及早检测有利于疾病诊断与治疗;视盘是视网膜图像中
Internet发展到今天,各种应用以及网络流量迅猛增长,需要网络设备提供更高的带宽和数据分类处理能力。包分类是下一代因特网网络设备和新型网络服务实现的关键技术之一,包分
随着科学技术的不断发展,人与人之间的交流日益便捷,商业活动越来越多样化,这也使身份认证方式的研究在实际生活中具有了重要的意义。签名认证是一种传统的身份认证方式,一直
基于水产品易腐易变质的特性,其自“池塘到餐桌”上的整个流通过程,都要求处于特定的温度环境条件下,并且要求控制在一定的范围内。水产品所处温度及该温度下的时长、温度变化频
学位