基于Matrix的二级BLAS库的设计与实现

来源 :第十七届计算机工程与工艺年会暨第三届微处理器技术论坛 | 被引量 : 0次 | 上传用户:hnjyli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  支持科学和工程计算的BLAS(基本线性代数子程序)在高性能计算中有着重要作用。本文针对Matrix的体系结构以及二级BLAS库函数的特点,采用优化数据布局、软件流水、指令重排方法,设计和实现了BLAS2库函数在Matrix上的高效映射,并与TIC6713进行对比。实验结果表明,与TIC6713相比,性能平均提高约26倍,BLAS2库函数的在Matrix上平均计算效率达到71%以上。
其他文献
目的:多胺(腐胺、精脒、精胺)参与细胞增殖、分化和凋亡等重要生命过程,细胞内多胺代谢紊乱也与包括肿瘤在内的多种疾病的发生发展密切相关。鸟氨酸脱羧酶抗酶抑制因子-1(AZIN1
锂离子电池(LIBs)因具有开路电压高、能量密度高、使用寿命长、环境友好、自放电小等优点已经被广泛的应用于手机、手提电脑、相机和其他便携式电子器件。目前商业化的石墨电极理论储锂容量较低,仅有372 mA h g-1,已不能满足纯电动汽车、混合电动汽车等新能源汽车对电池性能的需求。目前,由于金属氧化物具有较高的理论容量,已经被广泛探索和研究,可惜的是在电池循环过程中有严重的体积效应,金属电极通常表现
  时标(timescale)定义了Verilog模型的时间单位和精度,时标正确与否决定了模型是否能够正确工作,而时标定义引起的问题在模拟中往往很难发现。本文给出了一个解决时标问题的
  随着微处理器设计规模和复杂度的不断增大,功能验证已经成为设计的瓶颈。本文围绕一种通用处理器核的功能验证工作,构建了一种多种验证方法糅合的、基于TLM覆盖率驱动的模
  抖动对锁相环的性能有极大影响,抖动较大时可能导致并行总线的建立保持时间余量不够、时钟稳定度差、串行信号接收端误码率高等现象。本文主要介绍了信号抖动在不同情况下
期刊
随着人们对环境保护和人体健康的不断重视,对环境中金属离子的检测十分必要。荧光传感器技术具有检测限低、操作简便等优点,在金属离子的检测中应用广泛。然而,多数传感器的
无机微/纳米空心球具有强度高、质量轻、大比表面积和耐热耐腐蚀等良好性质,应用非常广泛;而氧化铝也有着各种优异的物理化学性能,如具有小热膨胀系数、高硬度、高强度、结构坚
  3D plasma simulations have been widely used in the study of plasma.This paper ports a particle-in-cell based plasma code, LARED-P, on Xeon Phi, which is a m
会议
  Short-vector SIMD extensions are commonly included in modern processors.This pa per presents a multi-kernel algorithm for MD simulations to utilize the SIMD
会议