论文部分内容阅读
随着集成电路制造工艺的进步和处理器设计技术的发展,单发射处理器凭借其在低成本、低功耗和高可扩展能力方面的优势,获得了日益广泛的应用,表现出了强劲的生命力。为进一步满足应用程序不断增长的访存性能需求,有效提升单发射处理器的访存性能至关重要。本文针对典型的单发射处理器,结合北大众志UniCore-2处理器的设计实现及实际应用,开展访存性能优化技术的研究。本文的研究工作从处理器结构设计和存储系统设计角度出发,针对片上缓存系统和访存延时包容,提出新的面向单发射处理器的访存性能和能效性优化方法。本文的主要研究工作及成果包括如下几个方面:
1、片上两级缓存系统的设计与优化
本文以典型的单发射处理器北大众志UniCore-2为研究实例,面向典型应用的访存需求和操作系统的管理需要,提出了片上两级缓存系统的组织结构设计,重点解决了流水化访问Cache所引发的结构冒险与数据冒险问题,并采用写缓冲技术对写失效停顿进行优化。本文所提出的片上两级缓存设计达到了性能、功耗和硬件代价之间的较优权衡,提供了一种单发射处理器中存储系统组织结构的有效设计思路和典型参考设计。
2、面向能效性的微处理器预执行机制
为了避免流水线由于缓存失效而发生停顿,本文面向典型的单发射处理器提出一种高能效的预执行机制,在充分利用预执行过程中的有效访存结果与计算结果加速程序执行的同时,最大限度地减少对性能提升无益的预执行动态指令,从而提高预执行效率,以达到高能效的目标。本文的预执行方法将基准处理器的性能提升24.10%,而能耗仅增加4.14%。与已有研究中两种典型的预执行方法相比,本文方法在获取可比的性能优化效果的同时,能耗开销分别降低7.82%和10.37%,从而使能效性分别提高10.26%和10.66%。
3、顺序预取与预执行结合的混合预取
为了弥补片上缓存在处理复杂访存模式方面的不足,本文面向单发射处理器提出一种结合使用顺序预取与预执行的混合预取技术,将顺序预取与预执行在捕捉访存模式方面的特点和优势加以结合,并利用预执行期间的真实访存信息对顺序预取过程进行有益指导,通过提高预取的覆盖率和改善预取的及时性提高处理器性能。实验结果表明,在平均情况下,本文的混合预取技术将基准处理器的性能提升30.88%,与顺序预取和预执行各自单独使用相比,性能优化效果分别提高14.34%和5.46%。
4、微处理器访存优化的设计空间探索
为了给访存性能优化在设计权衡与设计原则方面提供参考和借鉴,本文面向单发射处理器开展预执行机制的设计空间探索以及预执行机制与存储系统相互作用的趋势分析。本文对预执行机制的重要设计要素对处理器性能与能耗的实际影响进行了量化评估与深入分析,并对预执行的优化效果与片上缓存容量及主存访问延时之间的相互影响进行了全面的讨论和探索。上述探索与分析为新一代北大众志处理器的访存性能优化设计提供了具有实用性的参考依据。