一种基于GPU集群的深度优先算法设计与实现

来源 :2013全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:luck_chiachang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  深度优先搜索算法在GPU集群中大型图上的简单执行,会导致线程间的负载不平衡和无法合并内存访问的情况,使得算法的性能较低.为了获得在单个GPU和多个GPU环境下性能的明显提高,在处理数据之前通过采取一系列有效的操作进行重新编排.提出了构造线程和数据之间映射的新技术,通过利用前缀求和及二分查找操作来达到完美的负载平衡.为了降低通信开销,对DFS各分支中需要进行交换的边集执行修剪操作.实验结果表明,算法在单个GPU上可以尽可能地实现最佳的并行性,在多GPU环境下可以最小化通信开销.在一个GPU集群中,可以对含有数十亿节点的图有效地执行分布式DFS.
其他文献
作为计算机视觉领域的重要技术之一,图像矩(moments)方法广泛应用于图像匹配,模式识别,图像重建和压缩等方面.近年来GPU快速发展,凭借其高性能计算能力和相对低廉价格,在数字图像处理、医学、工业计算等领域的应用越来越多.OpenCV是目前全球最为权威、使用最为广泛的计算机视觉库.本文工作正式基于OpenCV中CPU版图像矩的算法开发完成基于OpenCL的矩函数并通过各种优化方法提升其在AMD
Qt模型/视图架构下,首先,在需求分析阶段,分析并确定软件界面模块的功能及功能之间的联系,确定界面设计特征。其次,根据界面设计特征建立Qt模型/视图和界面模板,其模板的构成包括控制参数、模型/视图以及界面操作控件集等。最后,为界面模板配置控制参数,生成具体界而。除此之外,通过控制对界而模板的组合和复用可以生成更复杂的界而。本文借鉴Qt模型/视图架构,将基于模型的参数化界面设计模式应用到界面开发中。
本文提出了一个基于流程图的调试器,用于实现开发调试JASMIN并行应用程序.描述了一个调试架构,可用于结构化流程调试。这种架构的结构图调试器显示定义一个中间数据结构的数据结构之间的关系,定义了结构文件名。从行号之间的映射流程转换成水平的信息源。代码生成引擎负责更新和维护数据,调试器采用双向代码和流程图结构的映射技术,结构化的流程图和源代码级调试信息之间的转换是自动完成的时候,需要调试。它会保持结构
云计算的成熟以及移动互联网的兴起,移动设备为用户提供了丰富的高质量及高可靠的服务.移动智能终端如智能手机、平台电脑已经成为最主要的电子消费品,且呈现快速增长的趋势.移动设备上运行的应用程序种类丰富多样,对硬件平台的需求也大不相同:而移动设备的硬件平台在性能和功耗上有其自身的局限性.因而,分析移动设备上的应用程序运行过程中体现出的体系结构特征,对于硬件平台如处理器的设计,以及指导应用程序的优化,具有
动态异构多核处理器的处理器核可动态调整的特征给操作系统调度算法带来了新的机遇和挑战.利用处理器核动态可调整的特征能更好地适应不同任务的运行需求,带来巨大的性能优化至间.然而也带来新的代价和更复杂的公平性的计算.为了解决面向动态异构多核处理器结构上的公平性调度问题,本文提出了一个基于集中式运行队列的调度模型,降低调度算法在动态处理器核变化所带来的维护开销.并重新思考在动态异构处理器结构下公平性的定义
在处于不同地理位置的数据中心之间进行虚拟机的在线迁移,有助于在较大范围内进行资源的优化调度,但是这目前还存在一些困难,其中一个主要问题是缺乏有效的方法在广域网上把虚拟机的内存状态跨数据中心进行拷贝,该问题的关键在于广域网上通信延迟较大、可用于迁移的数据传输速率较低,与内存数据变化较快之间的矛盾.针对该问题,本文提出了一种内存数据去冗余方法.该方法基于内存页面的统计结果,选取模板页面并建立索引.迁移
在体绘制领域中,光线投射算法是一种应用广泛的体绘制算法.随着现代科技和计算技术的高速发展,来自医学、地质勘探、天体物理、气象学以及航空航天等领域的信息量都以几何级数的速度爆炸式地增长,加之光线投射算法直接对体素操作,本身的计算复杂度高,绘制速度慢,现有的单台处理机已经远远不能满足对海量数据集进行实时处理的请求.基于这个问题,本文介绍了基于一种简化的并行域遍历方法(称为DStep)的光线投射体绘制算
生物基因测序是生物信息学分析中最常用的高性能计算任务本文旨在通过分析生物基因测序日志找出生物基因测序日志中的任务特性,构建一种通用的适合分析生物基因测序的任务模型,并应用于面向基因测序的高性能计算系统的任务调度及性能优化基于任务日志,本文主要分析了生物基因测序日志中任务到达时间的规律特性,任务运行时间和任务的并行尺寸等特性,通过这些任务特性利用指数分布,伽马分布,正态分布以及线性拟合构建了相应的局
现有的OpenMP代价模型较为简单,既没有充分考虑OpenMP程序的执行细节,也无法适应不同的循环并行执行方式.针对上述问题,对最先进的产品级优化编译器Open64中已有的代价模型进行扩展,以单个并行候选循环为对象,建立了一个用于openMP自动并行收益分析的代价模型。该模型在改进了Open64原有DOALL并行代价模型的基础上,又增加了DOACROSS流水并行代价模型和DSWP(Decouple
高性能计算和云计算的飞速发展对高性能互连网络提出了越来越高的要求:除了高带宽、低延迟和高可靠性等特性,还要考虑成本和功耗的挑战.针对这些挑战提出了一种低开销的基于cHPP体系结构的超节点网络接口控制器;设计兼容PCIe的网络通信协议可有效降低协议转换开销、减少通信延迟,支持用户级通信和高效通信原语加速大数据传输,硬件支持I/0虚拟化实现超节点内I/0资源的高效共享.基于FPCA实现了系统原型,实验