面向通用高性能计算的TFLOPS DSP设计权衡

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:officerkaka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  GPU由于其计算能力高达数TFLOPS,被高性能计算领域用于加速并行运算.然而,GPU较低的峰值性能利用率和功耗效率,已经成为了系统性能进一步提升的瓶颈.为了解决这个问题,开始研究将TFLOPS级的DSP用于通用高性能计算领域.为了高效支撑通用高性能计算,本文提出了TFLOPS DSP的结构框架,并通过映射GotoBLAS库到该结构上,建立了GEMM在该结构上的性能模型.研究了影响GEMM效率的主要因素,包括性能、存储层次、核的大小以及核的数量.文章的最后总结了一些有指导意义的结论来帮助设计者们构建面向通用高性能计算高效的DSP.实验结果表明,通过尽可能少的硬件代价,可以在TFLOPS DSP上获得接近峰值的性能.
其他文献
水的用途非常广泛,它不光集滋润保湿、消炎去痛、健美和防治皮肤病于一身,而且还可在缓解、镇定紧张情绪方面扮演重要角色。总之,从头到脚只要遇到问题,它都可能帮得上忙。1
  云计算平台中存在大量的异构资源,当用户将任务提交给云平台时,云调度系统搜索与这些任务需求相匹配的资源时,有可能没有任何资源节点能满足任务的需求,因此需要对这些异构资
  应用GPU通用高性能编程技术设计了一种加速三维叠前随机噪声衰减(以下简称三维叠前RNA)预测算子计算的并行算法。三维叠前RNA是地震资料数据处理的常用技术,能有效提高三
  NoSQL数据库作为下一代巨型数据的存储模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注,本文提出一种新的基于NoSQL数据库HBase的并行求
会议
  集成电路进入到纳米时代,微处理器的软错误问题越来越严重。地面应用的商用微处理器难以像工作在恶劣环境中的系统那样采取激进的保护措施,需要在性能,功耗和可靠性之间取得
会议
  Ad-hoc同步在多线程程序中非常常见。和phtread 库中的正规同步语句不同( 比如pthread_cond_wait),Ad-hoc 同步会隐含地引入happen-before 关系。对于很多错误检测工具来
会议
破碎的借条偶然在旧物中发现路遥手写的一张便条: “晓雷,请将写XX大楼那壹仟元稿费领出交给林达。”署名下的时间是9月19日。初看此条,已记不起这在哪一年,但一注意字迹,我
  为求解超图中的最短路径,对于不带边权的超图模型,提出了一种基于宽度优先搜索的无权超图最短路径算法;对于带边权的超图模型,提出了一种基于最小代价优先的有权超图最短路径
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
  超级计算在“高、精、尖”的前沿科学、工程研究之中广泛应用。但由于我国超算中心大多采用“地方政府投资、以市场为导向开展应用”的建设思路,与国际知名超算中心的运作