论文部分内容阅读
随着多媒体技术的发展,图形、图像和视频编解码等数据密集型算法得到了广泛的运用,其标准也不断更新。通用处理器(GPP)能很好的解决算法多样性的问题,但其计算能力有限;ASIC可以针对特定算法进行能耗和性能优化,但无法满足不断更新算法标准的time-to-market要求。可重构阵列(RCA)和RISC处理器组合成的粗粒度可重构处理器在灵活性和高性能间可获得良好的平衡,因此适合处理多媒体算法。
论文分析了H.264等媒体算法中核心子算法,包括运动补偿(MC)、去块滤波效应(Deblocking)和反离散余弦变换(IDCT)等。这些子算法基于宏块和块操作,计算复杂度高、数据规则且依赖性强,适合在计算资源丰富的可重构阵列上运算。论文对可重构阵列的各项关键技术作了设计空间探索,设计了适应媒体算法的粗粒度可重构阵列。该阵列在计算单元、互联方式、耦合方式和可扩展性等方面进行了优化,包括:计算单元(PE)支持多种算术运算及逻辑运算,支持媒体算法中常见16位、8位数据位宽;阵列由8×8共64个PE构成,PE间采用crossbar的互连方式;阵列采用总线方式与RISC主控核的耦合,可以作为IP连接到总线上;阵列设计为可扩展形式,以针对不同应用扩展其规模,例如4个8×8阵列可扩展为16×16的阵列以实现H.264高清解码中关键算法。
将本文设计的可重构阵列应用于REmus2可重构计算系统中,搭建验证平台,通过映射H.264核心算法的方式对可重构阵列进行性能评估。实验结果表明,在TSMC65nm的工艺下,时钟频率200MHz时,本文设计的可重构阵列的面积为8.823mm2;平均在816个周期内能完成单个宏块的解码,可实现分辨率为1920x1080的H.264 High Profile码流30帧/秒解码:解码的功耗小于50mW。