论文部分内容阅读
论文来源于国家自然科学基金重点项目“新一代图形处理系统芯片体系结构及关键技术研究”。图形处理器(GPU)的应用已经从桌面计算系统、手持和便携电子设备、游戏机等领域扩展到高性能计算和人工智能等领域。GPU架构从原来的图形专用加速器发展到现在的单指令流多数据流或单指令流多线程处理器。现代的GPU不仅仅是一个特殊用途的加速器或几何引擎,它也可以作为一个通用计算芯片。在集成电路工艺进步和应用发展的驱动下,当前的图形处理系统芯片正在发生变革。因此,针对新型图形算法和通用计算的需求,面向未来图形处理器芯片高级应用的不断发展,在体系结构方面应对长线、功耗和工艺缺陷等问题,研究新一代图形系统芯片的体系结构和关键技术,具有重要的科学意义,研究和设计GPU芯片,打破国外的垄断是我国社会和经济发展的迫切需要。本文研究一种多态并行GPU的体系结构设计及功耗估计和功耗优化技术,主要从以下四个方面展开研究:1、提出了一种多态并行图形处理器的硬件体系结构。为了更好适应新的图形计算和通用计算的要求,应对未来芯片制造工艺的挑战,提出了一种多态并行GPU体系结构,其芯片实现为Firefly2。Firefly2的架构是由同构的处理器单元构成的二维阵列,处理器之间采用邻接互连技术。邻接互连技术减少了长线,降低了功耗,有利于信号完整性。处理器指令集是根据大量的图形处理仿真试验和统计分析结果优化设计的。指令系统的设计保证了指令的邻接寻址,邻接寻址指令构成的程序可以“重构”处理器阵列,使其像专用电路一样高效地完成操作级并行计算。也可以通过指令的广播使多个处理器执行同样的指令完成数据级并行计算。在指令存储器中存放的指组(由多条指令组成)能够完成多指令流的线程级并行计算。这样就实现了用指令流计算统一各种并行计算模式,具有程序设计的灵活性和计算的高效性。另外,我们在Firefly2处理器上分别实现了3D图形渲染流水线和计算机视觉应用,并进行了仿真实验。实验研究表明,Firefly2架构具有良好的高性能执行图形渲染和图像处理程序的潜力。2、正确有效的功耗建模与评估技术是有效进行低功耗设计的基础,没有准确的估计功耗的手段,就难以设计出符合功耗预算的芯片。本文提出了一种新的3D图形渲染管线的能耗估计模型,包括3D图形渲染管线计算阶段的能耗估计模型、数据存储器访问的能耗估计模型和指令存储器访问的能耗估计模型。通过对3D图形渲染管线中影响渲染质量的两个关键模块顶点着色器和像素着色器的负载进行分析,得出了像素数与顶点数的比值模型。同时采用正向分析和根据经典图形渲染算法相结合的方法对3D图形渲染管线各阶段的能耗进行了建模,包括几何变换阶段、顶点着色阶段、视景体裁剪阶段、背面剔除阶段、扫描转换阶段、像素着色阶段及段操作阶段。并对顶点着色阶段和像素着色阶段的能耗估计模型进行了验证,结果表明模型达到了较高的预测精度。与以往研究不同之处在于建模过程不做任何底层硬件架构的假设,使得该模型具有广泛的适用性。3、超大规模集成电路技术已经发展到可以将数百亿个晶体管集成到一个芯片上。集成度的提升给GPU带来了巨大计算能力的提升,但也带来了巨大的能量消耗。功耗已经成为当今GPU设计中最关键的限制因素,而有效的功耗结构设计已经成为决定GPU芯片性能的重要因素之一。本文从分析功耗的来源入手,对集成电路中的功耗组成进行了分析,研究了从系统级、体系结构级、寄存器传输级、逻辑级、电路级、工艺级等各个层次上降低功耗的方法。分别从软件层面和硬件层面提出了一些降低功耗的措施,并进行了实验验证。其中,在软件层面,通过理论分析和仿真提出了几种适用于3D图形渲染的低功耗编程技术,包括顶点共享、时钟关断技术(HALT命令)、LOD技术和静态目标缓存技术(BEGIN_OBJ和END_OBJ命令)。实验验证结果表明,这些低功耗编程技术可以显著降低3D图形应用的功耗和能耗。硬件层面采取的功耗优化措施主要包括多阈值技术、门控时钟技术、门控电源技术和多电压技术。功耗分析结果表明,采用上述硬件层面的功耗优化技术使功耗下降了65.23%。4、提出了一种面向能耗感知的处理单元(PE)调度器的设计方法。首先,利用阿姆达尔定律对Firefly2处理器进行功耗的建模和能耗的建模;然后,提出了一种兼顾能效的最小化能耗调度算法;最后,基于所建立的功耗模型、能耗模型和调度算法,并利用系统内所设计的性能计数器,完成了PE调度器的设计。所设计的PE调度器的调度策略是根据应用选择运行的PE以及PE工作的频率。