论文部分内容阅读
随着大数据时代的来临,科学研究、工业应用等领域的数据规模正爆炸式增长,与此同时复杂数据分析的需求也日益强烈。当前高性能计算在国家的科学研究和科技服务行业中占有举足轻重的地位,并且随着其应用领域的不断拓展加深,高性能计算机已经成为了大规模数据处理的一个重要平台。然而,高性能计算机在处理数据密集型应用时仍存在着一些问题。高性能计算机多采用集中共享式存储系统(如Lustre文件系统等),这种以存储为中心的体系结构简化了程序编写的复杂度,但在处理大规模数据时容易造成I/O瓶颈,降低了系统的整体性能。并且随着高性能计算机系统的复杂度越来越高、规模越来越大,其平均无故障时间变得越来越短,系统的可用性降低,影响超级计算中心的服务质量。本文提出利用Map Reduce框架解决高性能计算机的上述问题。Map Reduce作为面向大规模数据分析和处理的并行计算框架,一经公布即引起了工业界和学术界的广泛关注,并迅速成为了大数据处理的事实标准。Map Reduce框架将系统容错性置于优先考虑位置,在系统层面解决了可用性和扩展性的问题。其“计算向数据移动”的思想缓解了海量数据移动的I/O压力,在分析处理大规模数据时具有较高的效率。本文主要围绕上述问题展开了以下研究工作:(1)研究采用集中共享式存储系统的高性能计算机与普通服务器集群的结构区别,论证在高性能计算机上部署Map Reduce框架的意义,探索部署Map Reduce框架的方法、技术。(2)分析Map Reduce框架采用集中式存储后数据流的特点,并利用该特点提高数据远程读写的效率,避免数据重复拷贝,优化Map Reduce框架的性能。(3)分析集中共享式存储系统Lustre的存储特性,针对Map Reduce框架访问数据的特点调优Lustre的性能。(4)研究利用虚拟内存盘存储临时数据和中间结果数据,进一步缓解Lustre的I/O压力以提升Map Reduce框架的性能。(5)在高性能计算机TH-1A上进行性能测试,验证优化策略的性能提升效果,展示在高性能计算机上部署的Map Reduce框架的性能优势,说明其能应用到实际生产中处理基于Map Reduce的数据密集型应用。