面向异构系统的多面体编译优化关键技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:k55551309787
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算技术的不断更新使计算机体系结构的发展日新月异,计算机体系结构经历着从同构计算模式到异构计算模式的转变,不同处理器厂商之间在体系结构和编程模型方面的巨大差异给计算系统的应用推广带来巨大挑战。利用编译技术自动将串行程序转换为异构并行程序是解决这个问题的一种有效手段。基于多面体模型的编译技术被认为是程序自动并行化领域的一个研究热点。本文以充分利用目标体系结构的硬件特征为目的,对面向异构系统进行多面体编译优化的关键技术展开研究,主要研究成果有:(1)以提升程序并行性和数据局部性为目标,本文研究了多面体编译优化的原理及流程,分析了多面体模型的主要特点,给出了利用多面体模型进行编译优化的主要途径。与传统的幺模矩阵模型相比,多面体模型具有更广泛的应用范围、更强大的表示能力和更全面的优化空间,同时也存在抽象层次高、实现难度大等问题。为了全面深入的了解多面体模型,本文分析了多面体模型的原理和基于多面体模型的编译流程,深入研究了多面体模型最核心的调度变换算法,给出了利用多面体模型提升程序并行性和数据局部性的主要方法。(2)为了发掘数据局部性和提升块间并行性,本文提出一种面向通用多核同构架构的循环分块算法。循环分块是提升多级缓存数据局部性最有效的循环变换技术。多面体模型实现了简单的平行四边形分块,但这种分块方法无法有效进行分块之间的并行。为了解决循环分块的块间并行问题,衍生出分裂分块、钻石分块、六角形分块等复杂的分块形状。其中,钻石分块、六角形分块已经在多面体编译器中得到实现,但分裂分块由于设计复杂,目前尚无有效的算法和实现。本文设计了一种基于平行四边形的分裂分块算法,避免了传统分裂分块依赖非仿射表达式的问题,并在PPCG编译器中对该算法进行了实现。实验对不同类型的stencil计算进行测试,结果表明,PPCG编译器采用本文提出的算法生成的Open MP并行代码相较于当前效果最好的钻石分块算法生成的代码有2%的性能提升;相较于stencil领域专用编译器Pochoir生成的代码有91%的性能提升。(3)为了生成面向异构系统的并行代码,同时降低同步开销,本文提出一种面向GPU架构的循环分块算法。钻石分块仅实现CPU上的代码生成,六角形分块仅支持面向GPU架构的代码生成,当面向不同架构时,为了达到最优的性能,需要采用不同的循环分块算法;同时,复杂分块形状提升块间并行性必然以额外的同步开销为代价,频繁的同步大大降低了程序整体性能。本文在面向CPU架构分裂分块算法的基础上,在PPCG编译器实现了分块后循环层到GPU硬件层的映射,同时实现同步最小化功能。与钻石分块相比,本文提出的算法支持各个维度分块大小不同的情况;与六角形分块相比,本文提出的算法能够处理多条语句、符号常量循环边界等多种复杂情况。实验对不同类型的stencil计算进行测试,结果表明,PPCG采用本文提出的算法生成的CUDA代码相较于当前应用最广泛的六角形分块生成的代码有64%的性能提升。(4)为了充分利用大规模并行资源,本文提出一种面向硬件并行规模的循环多维并行识别方法。随着现代处理器架构核心数目的不断增长,传统的单维并行识别方法难以提供足够的并行度,本文提出面向硬件并行规模的循环多维并行识别方法。根据并行层迭代次数和目标平台硬件资源数之间的关系,动态识别嵌套循环的多个维度为并行层,将多个并行维度的迭代空间合并后再作任务划分,以达到充分利用目标平台硬件资源的目的。该方法在PPCG中进行实现,通过对矩阵乘法、laplace方程等核心计算程序进行测试,结果表明,本文提出的方法相较于现有单维并行方法,在SW26010异构众核处理器上性能提升最高达1.8倍,在Nvidia Tesla V100平台性能提升最高达5.2倍。本文采用多面体编译优化技术实现程序自动并行化,能够同时支持Open MP、CUDA和Open CL并行代码的自动生成。通过有效地发掘循环并行性和数据局部性,有效提升了并行代码的执行效率。
其他文献
第一部分骨质疏松性胸腰段椎体压缩骨折与腰椎滑脱的临床相关性目的:临床上,骨质疏松性胸腰段椎体压缩骨折的患者常常合并有腰椎滑脱,并具有一定的普遍性。本研究试图探讨骨质疏松性胸腰段椎体压缩骨折与腰椎滑脱的临床相关性。方法:回顾性分析河北医科大学第三医院脊柱外科自2018年9月至2020年9月因骨质疏松性胸腰段椎体压缩骨折就诊的患者208例(骨折组,n=208),以及同期诊断为骨质疏松症的老年患者250
玉米作为我国主要的经济作物,不仅受到市场的喜爱,更是占据了我国农业经济结构中的重要地位。而玉米种植新技术的发展更是提高了玉米种植的产量,在减少人工成本的同时实现了增产增效。本文将从玉米种植新技术开发与推广的意义、玉米种植新技术要点,以及玉米种植新技术推广方式三个方面进行相关论述,以供参考。
本论文研究了甲基对硫磷水解酶MPH(methyl parathion hydrolase E.C.3.1.8.1)的纯化步骤、理化性质及动力学参数,优化了生产Pseudomonas sp WBC-3的产酶培养基,研究了粗酶乳剂的制备。 我们根据Pseudomonas sp WBC-3的生长特性及产酶情况,以阳离子交换层析纯化胞内粗蛋白中,使酶的比活提高了49.1倍,得到了均一的目的蛋白MPH
根据对卷枝毛霉(Mucor circinelloides),布氏须霉(Phycomyces blakesleeanus),Rhizopus niveus,Rhizopus arrhizus ,Rhizomucor pusillus的乳清酸核苷-5’-单磷酸脱羧酶基因核酸序列的同源性分析,在第3个外显子内根据卷枝毛霉基因序列设计一对引物,以三孢布拉氏霉(Blakeslea trispora)基因组D
介绍了苏州市农机化教育培训概况、类型及成效,分析了农机化教育培训面临的问题,并结合新时期农机化教育培训工作中的创新实践,对推进农机化教育培训高质量发展提出对策与建议。
本论文共包括4章 第一章首先对杆状病毒的研究历史作了综述性报道,包括病毒的分类学研究,病毒结构和感染循环等。对棉铃虫单核衣壳核多角体病毒(HaSNPV)的研究历史和近期对HaSNPV的基因组学研究以及本论文的研究内容作了简要介绍。 第二章对HaSNPV基因组中的HindⅢ-Ⅰ片段的序列进行分析,该片段全长7501bp,包括十个开放阅读框:AcMNPV ORF111的同源基因(Ac111
学位
冲压发动机进气道是一种复杂异形薄壁钛合金构件,成形难度非常大。以TA15钛合金粉末为原材料,利用热等静压近净成形技术在国内首次研制成功进气道,实现了整体结构的一次成形,并成功通过飞行考核。从进气道本体取样,测试了不同位置的组织。结果表明:热等静压TA15钛合金不同位置组织均匀性好,主要以板条状或片层状α相为主,在粉末颗粒边界大应变带周围分布着等轴α相,相间分布少量的细小β相。测试了材料各项性能,其
随着汽车智能化、网络化的快速发展,智能网联汽车面临的网络安全问题日益严峻,其车载信息娱乐(IVI)系统的安全性挑战尤为突出,研究IVI系统网络安全问题对提升汽车安全性具有重大意义。目前,针对IVI系统网络安全问题开展的系统性研究工作比较缺乏,涉及到的相关研究主要集中在汽车安全体系、车载总线网络安全、车联网隐私保护、车载无线通信安全等方面。针对IVI系统存在复杂多样的外部网络攻击威胁、与车载总线网络
鲁棒水印是一种能够抵抗滤波、信道噪声、旋转、缩放等攻击的水印,多用于数字内容版权保护和盗版追踪等方面。而仿射变换是由旋转、缩放、拉伸等由单一几何攻击组成而成,抗仿射变换鲁棒水印由于水印同步问题,一直是鲁棒水印研究的一个难点和热点。本文就抗仿射变换的数字水印中的若干问题展开研究,主要工作及创新点如下:1、针对需要在仿射变换后发生形变的图像上同步原始水印嵌入位置的问题,提出了一种基于ASIFT特征点构
本论文共包括3章。 第一章 对杆状病毒的膜融合蛋白的研究进展作了综述性介绍,包括GP64与F蛋白的结构与功能,几种病毒膜融合蛋白的替换关系,GP64表面展示的应用。 第二章 利用Bac-to-Bac系统,构建了带有AcMNPV膜融合蛋白GP64的重组病毒HaSNPVgp64+egfp+和对照病毒HaSNPVegfp+,Western blot分析表明,证明GP64可在HaSNPVg