针对不规则应用的图形处理器资源调度关键技术研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:nilaopopodi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,图形处理器(GPU)广泛应用在图形图像处理、科学计算、多媒体应用、数据挖掘、金融计算等众多科学和工程领域。GPU采用单指令多数据(SIMD)架构,非常适合规则的应用程序。但是,未来应用程序中普遍包含不规则的计算和访存模式,这些模式极大地限制了GPU的资源利用效率和性能提升。不规则应用程序的特点体现为任务分配不均衡、控制流程分支多、访存地址分布不规则并且不能静态预测以及数据的时间和空间局部性差等,如何提高这些不规则应用的运算性能成为当前GPU计算领域亟待解决的问题,本文针对GPU应用中的不规则模式展开算法和体系结构的研究,主要贡献包括如下四个方面:(1)分析了三种应用广泛的不规则模式的性能瓶颈,提出了针对这些模式的专有优化算法。其中,针对稀疏矩阵向量乘问题,提出了数据填充的方法消除不规则的访存;针对字符串匹配问题,分别提出了数据段划分和数据重排的方法改善任务分配不均衡和消除不规则的访存;针对QR分解问题,提出了流水线式并行的方法,极大地提高了算法的并行度。与多核CPU相比,经过优化处理的计算模式及其应用能够取得数十倍以上的性能改善。(2)系统分析了众多不规则应用程序在GPU上的执行特点,指出了GPU架构在处理不规则应用时的不足。一方面,不规则应用中的各个线程访问内存时,访存延时差异大,不均匀的内存访问延时阻塞计算单元的运行,造成了计算单元使用效率低;另一方面,当前的缓存管理方法简单,不能够适应众多线程访存不规则的特性,因此,数据复用率差,缓存命中率低。(3)分别提出了基于有效地址优先级的缓存管理算法(EABP)和基于分支特性的内存调度算法(DAMS),这两种架构优化技术提高缓存命中率(20%)同时减少不均匀的访存延时,能够取得30%以上的系统性能改善。(4)针对流处理计算模式中任务分配不平衡的问题,提出了一种资源动态分配的硬件调度机制。该机制通过实时监测各个任务的计算量,动态地调节分配给各个任务的计算资源,提高不规则任务的计算资源利用率,并且利用任务间数据流动的特性优化了缓存设计。实验结果显示与现有GPU的成熟调度算法相比,该调度算法能获得20%以上的系统性能提升。
其他文献
<正> 目前国内外塔机的塔身腹杆体系有多种形式,在中小型塔机上采用最多的是图1所示的三种形式。本文在研究两种常用腹杆体系后,提出了一种简便的分析塔身腹杆体系的方法。
本文以挖掘机工作装置为研究对象,通过理论分析和试验探求模型和原型的固有频率、固有振型、模态质量、模态刚度和模态阻尼等模态参数之间的当量关系,以期利用模型结构的动态
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文以液压挖掘机为中心,全面介绍国外建筑机械液压系统及其控制技术的现状与发展动向。 1 液压挖掘机的液压元件作为液压挖掘机的液压系统,最重要的是液压元件要可靠、耐久
最优化问题是科学研究以及工程应用领域经常遇到的一类问题,因此最优化问题的有效求解具有重要的理论意义和现实作用。然而,大部分复杂的最优化问题都不存在有效的精确算法,
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近年来,随着互联网的快速发展,网络中具有丰富的可视媒体资源。目前,这些海量的可视媒体已经广泛应用到虚拟现实、影视制作、计算机游戏、动画生成等多个领域中。将现有可视媒体
辅助测靶式单机系统是一类典型的视觉坐标测量系统,只需一台像机、一次图像采集处理,即可获得测量结果,具有造价低、不需要现场校准、使用灵活等特点,在现代加工制造业的诸多领域
怎样标注齿轮工作参数抚顺挖掘机厂研究所张复兴为了更好地贯彻执行六项互换性基础标准,我厂对原使用的齿轮工作图参数表图章进行撤换,按照新标准重刻新图章,供设计人员使用。现
<正>春季卡他性结膜炎是一种慢性复发性眼病,临床较为常见。祖国医学称为“痒若虫行”、“粟疮”和“痒极难忍”等。西药以激素类治疗为主,停药而复发,且易发生副作用。自198