论文部分内容阅读
随着集成电路技术的发展和进步,片上多核处理器芯片的高度集成化和缩微化给片上多核处理器系统的发展带来一个不可多得的机遇:系统的各个层次和构件(接口协议、高速缓存、互连网络等)可以进行跨层次的协同优化设计。本论文面向未来高端系统的计算节点,从多核任务调度、存储子系统、片上互连网络三个方面探索片上多核处理器的优化设计方法,提出未来高端系统多核处理器节点的解决方案。首先,本文提出了一种基于主从式实时操作系统的多核异构调度器,用来高效地管理片上多核系统。操作系统作为应用程序和硬件的中间层,其效率对整个片上多核系统的性能有很大的影响。为了让应用程序能够充分利用片上多核系统的资源,需要考虑负载平衡、存储一致性、任务同步等问题。本文通过分析并行编程模型和执行模式,面向片上多核操作系统的优化设计,提出了一种基于主从式实时操作系统的多核异构任务调度器,其主要特性包括:1)简洁、明晰的接口协议,配合数据流并行编程模型,方便程序员编写并行程序;2)任务调度器与代理执行器两者相互分工配合,高效率地管理运行在片上多核系统上的并行程序;3)利用任务分类策略,简化了任务调度的流程;采用专用的控制子网用于同步消息的传输,加速了任务同步,减少了任务调度的开销。仿真结果表明,在1个主控核配合8个加速器核的多核系统配置下,采用本文提出的多核异构调度器,多核系统提升了16%的并行程序加速比,并具有良好的可扩展性。其次,本文提出了一种线程感知的自调数据预取引擎来优化片上多核处理器的存储子系统。在多核处理器系统中运行的各线程之间,通常会共享末级缓存和片外存储器。数据预取请求会带来额外的共享缓存和存储带宽的竞争及冲突,这些竞争和冲突会降低应用程序的执行效率,并且限制了系统的扩展性。本文通过分析多线程应用中共享资源的竞争情况,提出了线程感知的自适应数据预取引擎,其主要特性包括:1)采用运行时的线程分类指导机制,对数据预取引I擎进行动态调整,以减少共享资源的竞争;2)采用一种预取过滤机制,避免预取导致的线程间数据无效化;3)采用关键线程加速机制,用于预测以及加速位于程序最长执行路径上的关键线程。64路片上多核模拟器的仿真结果表明:相比于基准多模式数据预取引擎,本文提出的线程感知的自调数据预取引擎可以减少7%的线程间共享数据无效化,同时减少6%的线程同步平均等待时间;与不采用预取机制的结果相比,本文提出的数据预取引擎可以节省18%的执行时间。最后,本文提出了一种面向光电互连系统的仿真方法来支持光电互连网络的精确模拟以及多核系统的整体仿真。光互连技术具有时延低、传输带宽大、功耗开销少等优点。本文通过对光电器件的独立精确建模,以及器件库与功能模型、时序模型和成本模型协同工作,实现了光电互连网络的精确模拟;通过对多线程编程的支持,扩展了仿真规模,实现了256核光电互连系统的周期级精确仿真。通过仿真实验,分析了256节点时不同分簇大小对于网络功耗、时延等性能参数的影响,提出了未来片上光电互连网络的优化方向。本论文提出的多核处理器优化设计方法,达到了降低多核任务调度开销、减少线程间共享数据冲突的目的,提高了操作系统、存储子系统和片上互连网络的效率;本文所采用的优化方案,对未来高端系统计算节点处理器的设计具有指导作用。