固定结构约束下的并行计算变图权的可扩展方法

来源 :2014全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:bynlxd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  对并行计算实施扩展是获取更高计算性能的有效方法。然而,在固定结构的约束下,并行计算难以通过简单的规模扩展提升其计算性能。针对此类并行计算可扩展问题,分析影响可扩展性的并行任务因素及体系结构因素,采用带权图对并行任务及体系结构进行建模。特别对体系结构图和并行任务图同构及异构两种情形下的扩展做了深入研究,分别提出图相似的可扩展方法,以及关键路径不变的可扩展方法,其本质是固定图结构、仅调整图节点权值和边权值的可扩展方法。通过进一步推导,得出一些关于新扩展方法的有用结论。最后,应用网格计算模拟工具SimGrid开展实验,结果表明所提出的扩展方法能有效解决此类扩展问题,同时保持速度效率不变,对于并行计算扩展实践具有指导意义。
其他文献
3维蒙特卡罗器件模拟计算量大,计算量随网格与粒子数增加而急剧增加.通过分析3D蒙卡模拟加速热点和进一步可并行性,研究有效电势方法的集成众核并行方案;研究粒子自由飞行、统计模拟信息、计算表面粗糙散射等热点并行方案,最终实现基于CPU/MIC的三级并行3维蒙特卡罗器件模拟软件.实验结果显示三级并行比单级并行获得更好的性能;当提高模拟精度时,三级并行蒙特卡罗模拟对单级并行加速比增加.
偏微分方程的并行求解,关键问题之一是网格划分,它不仅要求每个进程拥有相等的计算负载,同时要求有良好的划分质量,以减少进程间通信.在自适应有限元计算过程中,网格/基函数不断调整,会导致负载不平衡,必须动态地调整网格分布,从而实现动态负载平衡,本文研究了小同的负载半衡方法,并在并行自适应有限元平台PHG中实现.数值实验表明动态负载平衡算法具有很高的划分质量,运行速度快,可有效划分网格并减少运行时间.
提出一类无矩阵Newton–Krylov-多重网格(MF-NKMG)法,在该方法里,实现矩阵向量乘运算并不需要显式地构造和存储Jacobian矩阵.对Jacobian方程组,采用一种带有多层分块磨光算子的无矩阵多重网格法进行预条件处理.对于强非线性问题,通过采用参数/网格递增技术可提高算法的整体收敛性.数值结果表明MF-NKMG方法可有效求解大Reynolds数的定常不可压缩流动问题,并在数百个处
本文针对包含数百个变量和数千个操作的复杂模板计算进行优化.选择了在弹性波建模中最复杂的方法之一——加权近似解析离散化(WNAD)方法的核心作为目标应用,探究复杂模板计算在GPU平台上的优化方法.除了包含在缓存中数据重用和调节并行度等之外,还新增加了基于图的代码变换以及指令重排,使得各种系统资源得到平衡的配置和使用,以达到最佳的计算性能.其中,通过提取和变换源程序中的计算的表达式图,能够调整寄存器用
As Cloud Computing becomes more and more prevalent, much more sensitive IT industry data are being centralized in cloud. Considering secure protection of privacy, it is vital not to sacrifice the conf
对流扩散方程是一类典型的偏微分方程,其并行求解方法对其他微积分方程的并行求解具有借鉴意义.本文对对流扩散方程的并行求解方法进行综述,分为显式直接并行、隐式迭代并行、交替分组显式并行和Monte Carlo并行四种并行求解方法,对其中的涉及的计算原理进行描述,给出示例,并指出进一步研究方向.
二维三温能量方程的求解是惯性约束聚变(ICF)的核心问题,高效并行的计算方法将能更快的推进ICF问题的研究.本文在现有的基于MPI消息编程模型的二维三温能量方程离散求解的并行算法的基础上,通过使用集群通信函数等MPI优化技术,改进现有的并行算法,并在此基础上提出了基于MPI+OpenMP混合编程模型的并行算法,取得了更好的加速比.
在遥感图像仿真中,为了定量模拟并分析平台抖动、探测器电子特性、大气衰减等因素对遥感成像质量的影响,需要有效计算遥感系统的调制传递函数(Modulate Transfer Function,MTF),并将其快速作用到仿真图像上.然而,由于遥感仿真图像的大数据量特性以及MTF退化包含多个计算密集型算法,使得计算效率成为一个瓶颈问题.为此,本文根据已有研究提出的MTF计算模型,分析了遥感仿真图像MTF退
在大规模三维复杂流动数值模拟中,针对加入大涡模拟湍流模型的多弛豫时间模型格子Boltzmann方法(MRT-LBM),分析了从网格划分到流场计算整个过程的可并行性,并结合分布式集群的特点,采用MPI编程模型,开发出适合于大规模分布式集群的并行算法,神威蓝光超级计算机上的测试结果表明,该并行算法在十万核量级上仍具有良好的可扩展性.
The Unified Memory in CUDA 6.0 is one of the most significant update in the history of CUDA.Before CUDA 6.0,existing programming model for GPU computing relies on programmers to explicitly manage data