Ultra-Mat:基于平面波的第一原理异构计算软件

来源 :2013全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:soochow_deer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于平面波的第一原理计算方法是目前材料科学中最常用的.但传统的CPU并行计算已遇到可扩展性瓶颈,无法改善其求解的绝对速度.本文将系统地介绍利用GPU加速技术开发的大规模第一原理材料计算软件:Ultra—Mat.这一软件对第一原理平面波算法进行了系统的算法设计和软件实现:1)通过改变传统FFT并行方案,实现了快速傅里叶变换的GPU局部操作;2)设计了基于数据压缩的混合精度算法,显著减少了电子结构计算部分的MPI通信;3)同时完成了逾90%代码的GPU实现,目的是最大限度地减少中间流程,以避免CPU—GPU切换引发的数据传输,这是GPU应用中公认的性能瓶颈.测试结果显示Ultra—Mat具有很好的计算性能,对于512原子的GaAs系统,在电子结构计算部分,使用256GPU卡相比4096CPU核.有18倍的加速.
其他文献
本文概述了近几十年来斗提机在我国的发展状况,列举了斗提机在运行中存在的普遍问题,并分析了斗提机在本厂由板链式斗提机到胶带式斗提机的发展历程,概述了这两种斗提机在本厂输渣系统中的使用情况,及后来改换为胶带式斗提机的原因及结合本厂实际情况胶带式斗提机进行的部分改造情况。指出了胶带式斗提机的使用对于保障本厂输渣系统的稳定运行具有重要意义.
本文针对U型阀存在的问题,提出一种新型结构的返料阀,N型阀,并且在实验室范围内对N型阀的返料特性与密封性进行了研究和分析,认为N型阀因其结构特征,使其所需最小启动风量小于U型阀。并且N型阀所需的松动风量较小,立管内反窜气量小,密封性优于U型阀。
本文针对某135MW等级循环流化床锅炉开展了大比例掺烧煤泥试验,研究了不同煤泥给料位置和掺烧比例对锅炉运行特性的影响,提出了循环流化床锅炉大比例掺烧煤泥的关键技术指标。循环流化床锅炉大比例煤泥掺烧试验有效利用了低热值燃料,节约了原煤、保护了环境,符合国家产业政策,有利于实现节能减排,本次研究工作取得的技术数据为今后循环流化床锅炉大比例掺烧煤泥积累了经验.
目前容错问题已成为大规模并行程序长时间运行中不可回避的问题.本文针对由CPU和GPU组成的异构并行系统中的硬件故障问题,面向大规模的计算宇宙学应用,利用Charm++并行平台提出并实现了一种有效的应用容错机制.并通过实验和分析,验证了算法的高效性和可行性,不仅提高了该计算在超级计算环境中的可靠性.也为下一步更高效普适的异构容错算法的研究奠定了基础.
系统性的评测工作是全面评价和优化HPC系统的重要手段,作用日益突出。当前,针对HPC的评测缺乏专门的评价体系、缺乏对可靠性、功耗、复杂性、扩展性等瓶颈问题的系统性评测方法,以及自动化水平低的问题。本文在总结历代“神威”超级计算机评测的基础上,从测试级别、功能模块和测试类型三个维度,研究并实现了HPC系统评测框架TESTER@HPC,包括HPC评测技术体系和基于该评测技术体系的自动化测试系统两部分。
在大数据处理中,以K—Means为代表的聚类分析对于数据分析和挖掘十分重要。本文在分析K—Means基本算法特点的基础上,分析算法的瓶颈,提出了可利用数据并行的K—Means向量化算法,优化了向量化算法的数据布局方案。最后,本文基于CPU加MIC的异构架构实现了向量化K—Means算法,探索了MIC在非传统HPC应用领域的优化策略。测试结果表明,K—Means向量化算法具有良好的计算性能和伸缩能力
针对粒子滤波计算复杂、计算量庞大的问题,提出了一种混合并行粒子滤波算法.该算法利用粒子滤波潜在的数据并发特征,在集群环境下,设计并实现了基于MPI与OpenMP的混合并行算法,给出了主从模式下的MPI并行设计与OpenMP并行设计.实验结果表明,对于纯方位跟踪问题,随着粒子数增加、计算量增大,混合并行算法的执行时间明显减少,有效地提高了跟踪精度,降低了计算时间.
高性能计算机群具有单一系统和分布式的双重特点,也对机群的安全提出了新的挑战.本文根据高性能计算机群的安全现状和需求,提出了一种适用于高性能计算机群的分布式强制访问控制模型,并设计了一个基于现有的单节点强制访问控制系统SELinux,实现了高性能计算机群访问控制系统框架,并搭建了一个原型系统.最后.论文对高性能计算机群强制访问控制技术的可行性进行了分析和验证.
大数据时代的来临,使得内存系统越来越成为制约系统整体性能的瓶颈,如何利用访存序列分析程序的访存特征已经成为内存系统结果研究的热点.针对完整访存序列数据量过大的问题,需要一种快速准确的访存特征分析方法.本文提出一种基于聚类抽样的访存特征分析方法EMAT(Exti-acting representativeMelnoryAccessTrace).在EMAT中,使用由体系结构相关性能指标构成的基本性能计
以千万亿次(1015Flop/s)超级计算机的出现为标志,数值模拟已经进入一个全新的时代——一个可以使用数万至数十万个处理器核心进行超大规模并行计算的时代petaPar粒子模拟程序面向千万亿次级计算.在统一框架下实现两种广受关注的粒子模拟算法:光滑粒子流体动力学(SPH)和物质点法(MPM)。支持纯MPI和MPI+pThread混合并行两种编程模型。在Titan(2012年11月Top500第一)