论文部分内容阅读
伴随着互联网日新月异的技术的出现与科学技术的发展,给人类社会产生了翻天覆地变化。现在大数据时代正式来临了,我们正生活在数据爆发增长的时代。在生产和生活中,出现了越来越多的计算密集型的应用程序,这就对现在的文件系统提出了更高的要求,因为这其中的数据访问量会非常的大。而且这其中很多都是由许多小的数据块访问组成的。在处理大的数据块时,文件系统的带宽性能比较好,但是处理大量小的数据块的数据传输操作时,文件系统的带宽性能就会大打折扣,远不能打到文件系统的理论带宽。在并行文件系统这类矛盾上近年来越来越突出。本文对目前主流的并行文件系统进行了研究,并在研究的基础上对系统进行了多方面的比较。为保证研究的准确性,又自行搭建了用于研究的Lustre文件系统的集群,并在集群中部署了 Lustre文件系统的相关程序。然后实现了对Lustre文件系统I/O性能的测试用例,对Lustre文件系统3个重要组成部分,进行了分类研究与测试,实现了当前集群规模下各个组成部分的最优化的操作,并从MPI-IO的角度进行了优化与实现,从而改进了集群的I/O性能。本文的创新点如下。1.实现了对Lustre文件系统的搭建和部分日常处理方面的自动化的功能。2.分别在Intel CPU和国产CPU集群上对Lustre文件系统的I/O读写性能,进行了 MPI-IO方法的读写I/O测试功能的实现,其中在国产CPU集群中对代码进行了调整,并对其实现了对这2种集群进行任务提交的功能。3.从MPI-IO出发,根据其一个重要实现ROMIO,对其中的Collective方法进行了优化。在ADIO中进行参数化注入,可根据集群需要,随时调整,可根据不同网络,设备数量,文件大小都进行了详细研究与测试。