众核体系结构上的程序并行优化研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：zhuanzhiboke

【摘要】

：

随着半导体工艺技术的进步，面向多核和众核处理器的设计方法逐渐成为学术界和工业界研究热点。然而，由于众核处理器芯片结构复杂，编程环境复杂，同时应用程序的优化策略相互影响，因

【作者】

：

余磊

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2011年期

【关键词】

：

众核体系结构负载均衡加速比数据局部性结构支持程序并行优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着半导体工艺技术的进步，面向多核和众核处理器的设计方法逐渐成为学术界和工业界研究热点。然而，由于众核处理器芯片结构复杂，编程环境复杂，同时应用程序的优化策略相互影响，因此，在众核处理器上映射并行算法是一件较为困难的事情。选取几类具有代表性的算法在众核结构上进行优化，可以帮助处理器设计者更清楚地理解应用程序的行为特征，从而可以反馈给处理器设计者，以便于完善处理器的结构设计。同时，在一个给定的众核处理器结构上优化程序，可以分析优化措施对程序性能的影响，帮助并行程序员找到合适的优化方法，最终提升程序性能。因此，本文选取了三类典型应用程序：科学和工程计算，网络处理的应用和流处理应用，研究了这三类应用在不同优化方法：负载均衡，细粒度快速同步，硬件结构支持的数据缓存和硬件结构支持的快速线程问通讯等对程序性能的影响。通过时钟精确的众核结构模拟器进行性能评测与分析，这些方法取得了较好的效果。　　本文的主要贡献包括：　　 ●第一，针对科学和工程计算中的LU分解算法进行优化，主要采用负载均衡方法对LU分解算法进行优化，其主要贡献如下：提出了一个加速比模型，同时也提出了一个负载均衡算法DABP(Dynamic Absolute Balance Policy)，该算法通过对LU分解按照每次迭代次数不同而分配不同的任务，尽可能将计算任务均匀地分配到不同的处理器核上执行，有效地利用了处理器资源；为了评估2Dscatter、BRX(Bit Reverse XOR)和DABP三种负载均衡算法的效果，提出了两种不同的评价负载均衡的函数，这两个函数验证了DABP算法的有效性；在众核结构Godson-T上仿真了3种算法，试验结果表明，在使用64个处理器核的情况下，DABP算法加速比达到46，是3个算法中性能最好的。　　 ●第二，使用细粒度同步方法对2D wavefront算法和LU分解算法进行优化，其主要贡献如下：根据处理器体系结构的特征和算法执行中的访存模式提出了数据分布方式和线程划分方式，以及线程之间的同步方法，以减少算法执行中的数据等待时间和线程间的同步开销，加速算法的执行。基于众核处理器Godson-T对其进行了模拟评估。试验表明，2D wavefront的相对加速比接近线性，而且执行时间仅为粗粒度轮询同步方式的53.2％。LU分解在使用细粒度同步消除全局barrier后，性能提升了13.1％。试验结果进一步验证了细粒度同步机制在通讯密集和使用全局同步的程序中都能显著改善并行程序的性能，并且有良好的可扩展性。　　 ●第三，面向网络处理算法中的路由表查找算法提出了优化方法：首先详细分析了IP包查找算法在众核结构上的程序特点；提出了一种众核结构支持的并行IP包查找算法SRL(SPM based Routing Lookup)。SRL采用硬件结构支持的方法，混合配置SPM与Cache，高效地利用了数据的局部性，提升了并行程序的性能。在随机产生和使用开源工具两种情况下分别产生测试数据进行仿真，试验结果表明，在程序IPC，一级数据Cache缺失造成的开销和一级数据Cache平均访问延迟等方面都有较大的性能提升。当路由表和输入包规模大小都为100000，在使用64个线程时，IPC相对基准算法提升了8％。　　 ●第四，面向流处理应用程序提出了优化方法：提出了一个通讯开销评价模型，通过这个模型可以评估线程间的通讯开销；提出了一个基于事件驱动的方法，该方法用于计算并行程序的执行时间；提出了一种基于硬件结构支持的流处理程序映射方法，该方法用处理器核内的SPM(Scratch-Pad Memory)来传递数据，减少了对共享Cache的访问，降低了通讯开销。通过大量仿真试验，验证了该方案的有效性。

其他文献

面向科技文献机器翻译的若干技术研究

科技文献的机器翻译有着重要的研究意义和实用价值。随着科技文献数量的与日俱增，人工翻译的速度已经无法满足其日益增长的需求。机器翻译技术的发展为科技文献的自动翻译提供

学位

科技文献翻译机器翻译自动翻译题录信息人工撰写规则冗余度

荧光图像三维空间配准、重建算法及其应用研究

分子影像是一门新兴的前沿综合交叉学科，是美国哈佛大学Weissleder等人于1999年提出的。利用分子探针技术，它可以在细胞、分子水平实现生物体生理、病理变化的实时、无创、动态

学位

分子影像图像配准自发荧光断层成像肿瘤早期探测药物疗效评估三维重建

一种可扩展的动态映射虚拟存储系统及相关研究

近几十年来，磁盘性能的发展远远落后于CPU、内存的发展，其随机访问的性能也远低于顺序访问，同时随着集中式存储的广泛应用，如何提高应用的并发写性能逐渐成为一个突出的问题。另

学位

虚拟存储并发写性能动态映射写时分配过滤驱动磁盘性能

基于工作流的临床信息系统的研究

随着医院信息化建设水平的不断提高,临床信息系统建设受到医院的重视。临床信息系统始终坚持“以患者为中心”的理念,避免繁琐的流程,提高医务工作者的工作效率,最终实现提高

学位

临床信息系统工作流事务缺陷跟踪

基于SSD的机群文件系统元数据存储系统的设计与实现

随着数据量的增加和元数据操作性能需求的提高，传统基于DRAM+HDD存储架构的机群文件系统元数据存储系统面临挑战。由于HDD的I/O时延过高，HDD已经成为元数据存储系统的性能瓶颈

学位

机群文件系统元数据存储SSD异构存储系统数据访问大粒度顺序写

面向复杂路况信息采集的无线传感器网络协同处理关键问题研究

近年来，物联网产业方兴未艾，而无线传感器网络的研究也为物联网的发展注入了一针强心剂。无线传感器网络有着巨大的发展潜力，尤其是在物联网产业蓬勃发展的今天。将无线传感器网

学位

物联网无线传感器网络复杂路况交通信息采集系统信息融合特征提取协同机制

数字图像可逆水印算法研究

近些年,随着计算机技术以及网络技术的快速发展,图像与视频等多媒体的应用越来越广泛,其版权保护认证问题逐渐成为普遍关注的问题;可逆数字水印以其独特的可逆特性作为版权保

学位

数字图像可逆水印算法内插误差漂移补偿直方图平移

石油物探数据处理系统的I/O加速技术研究

随着石油物探数据采集量的高速增长，石油物探数据处理的I/O性能逐渐成为系统的瓶颈。由于当前行业内主要使用NFS(Network File System)文件系统来存储数据，所以NFS服务器的性能

学位

缓存机制预取机制石油物探数据处理系统预调度机制磁盘物理地址访问序列

真实感火焰动画生成与控制方法研究

火焰动画是以计算机技术为核心，结合相关科学知识，重现自然界中的火焰现象，同时加以一定的艺术创作，生成用户满意的视觉效果。经过多年的发展，火焰动画生成技术已广泛应用于虚拟现

学位

火焰动画火焰阵面跟踪最近点方法火焰控制水平集变形湍流细节真实感

基于个人计算机虚拟技术的研究

目前，虚拟化技术正在高速发展，该技术已在服务器整合、集群计算、配置多操作系统以及内核开发等很多领域得到广泛应用，并且虚拟化技术已经向个人计算机方向发展。而个人计算机的

学位

虚拟机监控器特权服务操作系统客户操作系统个人计算机稳定性

众核体系结构上的程序并行优化研究

与本文相关的学术论文