面向高性能计算平台的稀疏矩阵乘法性能优化研究

来源 :杜朝阳 | 被引量 : 0次 | 上传用户：pc167

【摘要】

：

【作者】

：

杜朝阳

【机构】

：

浙江大学

【出处】

：

杜朝阳

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于多核CPU和众核GPU的高性能计算平台已经成为高性能计算领域的主流计算平台,极大地推动着大量科学和工程应用的进步。稀疏矩阵乘法（Sparse GEneral Matrix Multiplication,SpGEMM）是图计算、线性代数、机器学习等大量科学和工程应用中的一个关键算子。包含SpGEMM算法的应用有多源广度优先算法、代数多重网格法、马尔科夫聚类算法等。提升SpGEMM算法的性能对于提升这些科学和工程应用的性能具有重要意义。但是SpGEMM算法中存在大量不规则的访存和计算,而现有高性能计算平台主要由多核CPU或众核GPU构成,在这些计算平台上优化SpGEMM算法面临大量挑战。为了应对这些挑战,本文采用硬件体系结构与SpGEMM算法特征紧密结合的研究方法,分析现有SpGEMM算法存在的问题,并提出了两个分别针对多核CPU和众核GPU架构的SpGEMM优化算法。此外,本文还提出一种预估结果矩阵稀疏结构的方法,可以用来提升SpGEMM的性能,同时降低其对内存的使用量。本文的具体工作和创新点如下:1)针对多核CPU架构提出基于二元行合并算法和乒乓缓冲区的SpGEMM优化算法。本文结合CPU架构和SpGEMM算法特征,发现现有基于CPU的SpGEMM算法存在访存不够高效的问题。为了解决这个问题,本文提出一种基于二元行合并算法和乒乓缓冲区实现的新型汇聚方法BRMerge,并基于BRMerge提出两个SpGEMM库。BRMerge首先将计算每个结果行需要的中间列表连续地存储在一块乒乓缓冲区中,随后将这些中间列表在两个乒乓缓冲区之间按照树状结构两两合并,直到得到一个列表作为结果行。BRMerge在CPU架构上的优势是具有流式访存模式、最小化的TLB缺失率、以及合理高的L1/L2缓存命中率。这些架构优势使BRMerge能具有较高的访存带宽和缓存利用率,从而极大提升了BRMerge的访存效率,进而提升其性能。实验结果表明,基于BRMerge所提的SpGEMM算法比现有最先进的SpGEMM算法平均提速1.42倍。2)针对众核GPU架构提出一个高度优化的SpGEMM计算框架。本文结合GPU架构和SpGEMM算法特点,分析了两个先进的SpGEMM库（即nsparse和sp ECK）,发现其中七类未能充分发挥GPU计算资源的问题。基于这些发现,本文提出了七类对应的优化,并将这些优化整合在一起,设计了一个高度优化的SpGEMM计算框架Op Sparse。本文提出的七类优化是:1)通过提高对共享内存的利用率来优化分箱方法（binning method）;2)通过减少对哈希表的访问次数来优化哈希方法;3)通过设置适当的分箱范围来改进哈希方法中哈希冲突率和GPU硬件利用率之间的权衡;4)通过最小化所需元数据（metadata）的全局内存使用量,同时使用合并的内存分配而非多个单独的内存分配,来减少在GPU上分配全局内存的开销;5)通过将全局内存分配与GPU内核执行相重叠来提高主机和设备的执行并行性;6)通过操纵内核启动顺序来优化GPU中流多处理器的负载平衡;以及7)优化GPU内核配置以实现GPU内核的理论满占用率。实验结果表明,Op Sparse比现有两个先进的SpGEMM库nsparse和sp ECK分别平均提速1.43倍和1.52倍。3)提出一种预估SpGEMM结果矩阵稀疏结构的方法。SpGEMM结果矩阵的稀疏结构（SpGEMM的输出结构）指的是每个结果行的非零元素个数,这个信息对提升SpGEMM的性能和降低SpGEMM对内存空间的使用量具有重要意义。不过精确地计算输出结构的代价很大。现有预估方法主要通过采样结果矩阵的一个样本矩阵中的非零元素个数来预估整个结果矩阵的非零元素个数,再利用每个结果行需要的乘法次数预估输出结构。本文发现样本结果矩阵的非零元素个数和需要的乘法次数具有强烈的正相关关系。基于这个发现,本文提出同时利用样本结果矩阵的非零元素个数和所需乘法次数来预估SpGEMM的输出结构。此外,本文提出利用行式乘法数据流来优化所提方法的计算开销。实验结果表明,本文所提预估方法对SpGEMM输出结构的预估准确度远远高于现有预估方法;本文所提方法的计算时间平均仅为现有最先进SpGEMM算法总计算时间的0.72%。

其他文献

基于深度学习的人脸识别系统

为了提高人脸识别的精度和性能，基于深度学习算法设计并实现了一种实时的人脸识别系统，并分析该系统完成人脸识别任务的基本流程。构建的人脸识别系统采用MTCNN（多任务级联神经网络）作为人脸检测算法，融合KNN（K最邻近分类算法）的FaceNet人脸识别方法，利用FaceNet进行人脸表征，基于KNN进行人脸特征分类。对设计的人脸识别系统分别进行识别率测试、响应时间测试、复杂环境干扰测试；结果表明：系统

期刊

石油管道场站关键设备物联网感知技术探讨

随着我国社会经济的快速发展，石油管道场站的数量也随之增多，站内关键设备故障也越来越常见，传统的人工巡检和感知方法无法确保石油管道场站安全、高效的运行，需要对场站内关键设备进行物联网智能感知技术升级。石油管道场站内的关键设备包括外输泵、原油储罐、站内管线以及换热器四类。文中阐述了石油管道场站内关键设备现有人工巡检以及传统感知运维方法的现状与不足；根据设备不同的运行特点，对四类关键设备的智能化感知升级

期刊

基于高阶思维培养的复习课教学——以苏教版高中化学“氧化还原反应”复习为例

高考复习一直都是高中化学教学工作展开的难点，而随着考试改革的深入推进，高考复习的实施方式也应当发生变化。在新时期，教师要改变传统教学中一味要求学生大量做题、大量记忆概念和公式的做法，转而加强对学生高阶思维的培养，从而使学生获得灵活应对多种情况的能力，并且增强学生在复习过程中的自主性，帮助学生摆脱低效落后的复习方式，获得更好的复习效果，从而提升复习课的质量。基于此，本文以苏教版高中化学氧化还原反应复

期刊

“三农”绿色发展的现实困境、实施原则及路径探索——以河南省为例

推进“三农”绿色发展对于促进经济社会高质量发展具有重要的理论和现实意义。河南“三农”绿色发展面临农业绿色化生产资源性约束及面源污染问题、部分农村人居环境缺乏整体规划、农民绿色发展理念亟需更新、绿色发展制度保障亟待加强等现实困境。新时期推进河南“三农”绿色发展，应坚持因地施策、科学规划，坚持环保第一、共建和谐等基本原则；同时，在资源有效利用、化肥农药减量增效、农业废弃物循环利用、人居环境综合整治、农

期刊

参七冠心方治疗冠心病慢性心力衰竭气虚血瘀证的临床观察

学位

乡村振兴背景下贺兰县融媒体中心“三农”新闻的报道特色

媒体融合是党中央对媒体改革提出的重大战略要求，也是媒体发展的必经之路。县级融媒体中心的建设与解决“三农”问题、实施乡村振兴战略之间契合度极高。建强用好县级融媒体中心，县级融媒体中心也将成为解决“三农”问题的助推器，为乡村振兴事业的发展带来新的动力。本文以宁夏贺兰县融媒体中心为例，通过分析其“三农”新闻的报道特色，指出县级融媒体中心“三农”新闻的报道现状，为县级融媒体中心和乡村振兴事业的发展指出新的

期刊

当代中国马克思主义政治哲学研究的主题与路径

当代中国的马克思主义政治哲学研究方兴未艾,在学术繁荣的背后隐含着深刻的理论危机,最突出的表现是主题方向和思想根基的模糊不清。当代中国的马克思主义政治哲学,首先应当自觉地以中国特色社会主义这个特定社会形态为自己最为根本的研究主题。其次,应当在合理继承马克思面向社会现实的方法论原则及其确定的历史哲学和政治哲学理论前提的基础之上,与西方古今政治哲学传统、中国古代政治哲学传统以及当今中国人文社会科学主干学

期刊

信息技术与高中化学教学深度融合策略探索——以“氧化还原反应”教学为例

＜正＞《普通高中化学课程标准（2017年版2020年修订）》（以下简称《标准》）指出，要关注信息化环境下的教学改革，关注学生个性化、多样化的学习和发展需求，着力发展学生的核心素养。现代信息技术背景下，丰富的教育教学资源和便捷的交互技术为传统课堂教学以及学生的线上自主学习提供了强大支撑。教育教学与信息技术的深度融合已然成为新课程、新教材背景下高中化学教学的重要需求。

期刊

基于任务分析理论的教学设计——以“氧化还原反应”教学为例

以人教版必修一“氧化还原反应”的教学为例，教师尝试通过对教学起点和学习任务进行分析，分析学生现有知识水平、教学使能目标和终极目标之间的关系，从而确定教学重难点和教学策略，设计学生活动，形成教学设计。

期刊

粤港澳大湾区城市群体育产业与旅游产业耦合协调发展研究

体育产业与旅游产业融合对粤港澳大湾区城市群构筑宜居宜业宜游的优质生活圈和建设国际一流湾区具有重要意义。基于体育产业与旅游产业融合机理，构建体育产业与旅游产业融合发展评价指标体系，运用熵值赋值法与耦合协调度模型，对粤港澳大湾区11个城市2011－2020年体育旅游产业融合发展水平进行测度评价。结果表明：粤港澳大湾区城市群体育产业和旅游产业综合发展水平稳步上升，区域发展差异显著，呈现出大湾区东岸＞大湾

期刊

面向高性能计算平台的稀疏矩阵乘法性能优化研究

与本文相关的学术论文