面向高性能计算机体系结构的MapReduce编程框架优化研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:wb5019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,科学研究、工业应用等领域的数据规模正爆炸式增长,与此同时复杂数据分析的需求也日益强烈。当前高性能计算在国家的科学研究和科技服务行业中占有举足轻重的地位,并且随着其应用领域的不断拓展加深,高性能计算机已经成为了大规模数据处理的一个重要平台。然而,高性能计算机在处理数据密集型应用时仍存在着一些问题。高性能计算机多采用集中共享式存储系统(如Lustre文件系统等),这种以存储为中心的体系结构简化了程序编写的复杂度,但在处理大规模数据时容易造成I/O瓶颈,降低了系统的整体性能。并且随着高性能计算机系统的复杂度越来越高、规模越来越大,其平均无故障时间变得越来越短,系统的可用性降低,影响超级计算中心的服务质量。本文提出利用Map Reduce框架解决高性能计算机的上述问题。Map Reduce作为面向大规模数据分析和处理的并行计算框架,一经公布即引起了工业界和学术界的广泛关注,并迅速成为了大数据处理的事实标准。Map Reduce框架将系统容错性置于优先考虑位置,在系统层面解决了可用性和扩展性的问题。其“计算向数据移动”的思想缓解了海量数据移动的I/O压力,在分析处理大规模数据时具有较高的效率。本文主要围绕上述问题展开了以下研究工作:(1)研究采用集中共享式存储系统的高性能计算机与普通服务器集群的结构区别,论证在高性能计算机上部署Map Reduce框架的意义,探索部署Map Reduce框架的方法、技术。(2)分析Map Reduce框架采用集中式存储后数据流的特点,并利用该特点提高数据远程读写的效率,避免数据重复拷贝,优化Map Reduce框架的性能。(3)分析集中共享式存储系统Lustre的存储特性,针对Map Reduce框架访问数据的特点调优Lustre的性能。(4)研究利用虚拟内存盘存储临时数据和中间结果数据,进一步缓解Lustre的I/O压力以提升Map Reduce框架的性能。(5)在高性能计算机TH-1A上进行性能测试,验证优化策略的性能提升效果,展示在高性能计算机上部署的Map Reduce框架的性能优势,说明其能应用到实际生产中处理基于Map Reduce的数据密集型应用。
其他文献
本文的主要工作如下:首先,运用SNIA共享存储模型分析了网络存储系统的体系结构和安全问题。接着讨论了经典入侵保护技术。对比了入侵检测和入侵保护的区别。其次,对网络附属存储
在网络环境下主机往往起着服务器的作用,存放有许多关键的信息,因此极易成为攻击者的目标。如何对主机的安全进行防护,找出对主机系统的攻击,及时阻断攻击,最大程度地降低主
多媒体技术使用户能够综合处理声音、文字、图像和视频等具有不同性质的媒体数据,大大改善了人机界面,从而深刻地改变了人们使用计算机的方式。近几年来,多媒体应用系统在视
本课题研究内容是"防火墙数据加密模块的设计与实现".Internet目前已是最有效的公用网络,上网用户每年以50%的速度递增.然而,在当今计算机网络化社会中,保证网络信息的安全已
目前,实用的网络体系结构都是层次结构,TCP/IP 是目前互联网所使用的主流技术体系。由于最初的TCP/IP 协议栈本来就是为了窄带文本数据而开发的,为了适应宽带传输的要求该协
为此,本文在研究了WWW信息集成技术要点的基础上,采用信元模型,设计并实现了一个WWW信息集成系统——WIIS.该系统主要针对WWW上来自不同信息源的HTML页面,进行基于信元的解析
随着计算机网络技术的不断成熟和进步,使得基于网络的远程教育成为可能。作为网络远程教育不可或缺的一部分,虚拟实验的研究成为当前研究的热点。分析了虚拟实验技术在远程教
语义Web(Semantic Web)是下一代的万维网(World Wide Web),是为了解决现在Web上的信息缺乏计算机能够理解的语义这个问题。 本文的主要内容是研究语义Web环境下的知识表达
在本文中,作者根据Francesc Comellas提出的确定性Small World网络的理论,结合J.P.Hubaux等人的Ad hoc网络中的节点认证模式,提出了在无线通信网络中应用确定性Small World网络
近年来,随着互联网的高速发展,网上的多媒体信息也急剧增加,这些多媒体信息以图像为主.面对浩瀚的信息海洋,人们迫切希望能够快速高效地获取所需要的多媒体信息.有效地组织、