面向性能的SIMD DSP指令流调度技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:xiaobu000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着嵌入式应用的飞速发展以及芯片设计技术的不断进步,处理器结构专注于采用更多的并行计算资源开发并行性,而不再依赖于更复杂的串行硬件设计和更高的时钟频率。以超长指令字技术为主体,融合变长指令集、单指令流多数据流(Single Instruction stream Multiple Data streams,SIMD)以及多核等技术的数字信号处理器(Digital Signal Processor,DSP)体系结构,已经成为DSP体系结构技术发展的主流[113]。尽管这些体系结构技术能以较低的硬件开销,充分开发应用程序并行性,从而大幅提高处理器性能,但随着指令发射复杂度和SIMD宽度的增加,这些技术越来越受到数据通路利用率和可扩展性问题的困扰。本文研究面向性能的SIMD DSP指令流调度技术,主要从指令流分布、指令流取指发射和指令流执行三个部分展开。首先,分析和研究SIMD宽度、VLIW长度和多核数目在内的体系结构参数之间的关联,考察负载工作量的特征值,包括线程级并行(Thread-Level Parallelism,TLP),指令级并行(Instruction-Level Parallelism,ILP),以及数据级并行(Data-Level Parallelism,DLP)发生变化时,资源分配对系统效能造成的影响,以解释结构中的性能瓶颈,实现数据通路利用率和可扩展性的高效权衡;其次,变长VLIW处理器的取指发射流水效率,能够显著影响整个数据通路的利用率,研究取指和发射的关键问题,以减少取指和发射导致的流水线停顿,能够显著提升DSP性能。再次,对于广泛应用于高性能DSP中的SIMD技术而言,增大SIMD宽度并不一定能够提高程序执行性能,不同算法对SIMD宽度和程序流控制的需求有着显著不同,提高SIMD资源利用率对于提高系统性能有显著影响。本文针对超宽SIMD DSP片上指令流调度的关键技术进行研究,并取得了以下几个方面的研究成果:(1)借鉴近年来在通用多核芯片上的对性能和功耗的相关分析与研究,构建了一个新型的参数化性能功耗综合分析模型,来评估层次化片上大规模并行结构的性能和功耗。该模型抽象出参数诸如多核数量、超节点尺寸、处理单元数目、功能单元数目等,在满足一定性能约束和功耗约束的前提下,考察负载工作量的特征值TLP、ILP和DLP发生变化时,资源分配对系统效能造成的影响。解析结果提供了对于设计超高性能DSP结构的合理的选择,以及使得系统具有更好可扩展性的理论基础,进一步揭示结构中的性能瓶颈。(2)为提高变长VLIW处理器的取指发射流水效率,减少和消除现有单线程取指发射流水线效率提升机制的弊端,提出了一种基于变长指令VLIW结构的高效取指发射流水架构。该架构引入了无效指令的检测作废机制,来消除无效的取指访问带来的开销;引入了缺失指令旁路机制,来减少缺失指令引发的流水线停顿;引入了变长指令发射窗机制,解决分离指令字带来的发射问题,从而为结构提供高效连续的指令流。这一研究进一步揭示了基于VLIW架构的取指发射流水线架构的加速机理,使得单线程流控加速技术变得清晰,这对指导高效流控机制设计具有重要意义。这种取指发射流水线能够很好地在任意基于VLIW结构的处理器中进行应用。(3)提出了向量分支线程压缩机制(Divergent Branch Threads Compaction,DBTC),来解决因应用中没有包含充足的DLP,如应用中往往存在循环遍数低,控制流复杂,执行行为不均匀的情况,而导致的SIMD资源空转问题。将SIMD硬件并行资源转换成实际的应用性能,才是发挥SIMD结构处理器性能的关键所在。试验结果表明:向量分支线程压缩机制相较于基准SIMD结构,能够获取很好的加速。(4)提出一种称为解耦的迭代映射(Decoupled Iteration Mapping,DIM)的方法,来解决因应用中包含迭代间相关的循环而导致的SIMD低效问题,开发了潜伏在算法中的中粒度的流水线线程并行,获取了类似于多核线程级并行的执行模式。它通过软硬件的协同配合,动态的映射包含迭代间相关的循环到改进的SIMD结构上,每一个处理单元(Processing Element,PE)能够解耦的执行循环体的一个片段的不同迭代,lane间的数据传递通过专用数据缓冲链(data buffer chain,DBC)完成,从而自动榨取之前无法在SIMD结构上并行执行的线程。DIM维护线程的局部性,隐藏了关键路径延迟。实验结果表明,DIM能够保持SIMD结构的关键优势,并且大大提升SIMD结构处理含有迭代间相关应用的效率。(5)提出硬件支持软流水机制(Hardware Supported Software Pipeline,HSSP),来加速包含规整控制流的数据级并行循环体的执行。继而,提出多模式指令流出思想,它将解决非规整条件分支控制流的DBTC技术,提升体间相关循环的DIM技术,与优化规整控制流的HSSP技术有机结合起来,从而提升SIMD结构的综合实力,解决SIMD结构中关键瓶颈。
其他文献
汉语研究的新观点──评《汉语的韵律、词法与句法》胡双宝对于汉语的结构特点,可从不同的角度加以分析,冯胜利从韵律角度分析,尚属首见。“韵律”或“韵律学”(Prosody)本是诗学概念,麦卡
知识的性质影响和制约着学习方式。新课程教学倡导自主学习、合作学习、情境学习、感受性学习、研究性学习、反思性学习等多样化的学习方式,在一定意义上是当代知识的建构性、
对当下生活的逃离与缝合,对意识形态的反叛与屈从,对权力场域的颠覆与妥协,对政治暗语的憎恨与依恋是二十世纪八十年代中国先锋小说的形象写真。他们既有着形式上的反叛,又有
前言最先应用在工业上的离子交换树脂是无机类高分子,叫硅酸铝钠(Na_2O·Al_2O_3·xSiO_2·yH_2O),俗称泡沸石;继而先后发现磺化煤及磺化酚-醛树脂。这些品种的交换量、化学
浙江人大2005.6稠城街道是义乌市政府所在地,是义乌市的政治、经济、文化和商贸中心。其前身为稠城镇。稠城历史悠久,秦王嬴政廿五年(公元前222年)即为乌伤县治。唐高祖武德
20世纪80年代,中国先锋小说的主创者们大多停留于先锋精神的浅表意义,但由于“身处绝境”而必须选择集体“突围”。不少作家对“元小说”的艺术手法进行“横的移植”,特别是对他
目的探讨玻璃体腔注射雷珠单抗联合小梁切除术治疗新生血管性青光眼疗效。方法选取60例新生血管性青光眼患者作为研究对象。按入院编号随机选取30例设为观察组,采用玻璃体腔注
利用统计分析方法,对广西有代表性的30个站点的观测资料其中包括降水量、降水日数等数据进行统计分析。摸清广西适合人工增雨云的情况,减少作业的盲目性,为全区人影作业计划的制
目前国内外项目中使用的环行穿梭车的机械结构设计,大多具有以下设计特点:四轮支撑,双电机驱动,平面踏面轨道,内、外轨往往具有不同曲率或不同轨面形状,等等。针对以上几方面
在选煤机械使用的过程中,由于磨损力和冲击力比较大,导致磨损成为影响选煤机械应用的一个主要因素,因此,基于目前耐磨材料在选煤厂的应用现状,对选煤厂常用的聚氨酯、高烙铸