多核CPU平台H.265/HEVC研究与性能优化

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:Stephanie1121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
H.265/HEVC作为新一代视频编码标准,在压缩效率、网络适应性和并行处理能力等方面相比上一代视频编码标准H.264有了极大的提高,但是其压缩性能的提高建立在编码计算复杂度成倍增加的基础上,复杂度的大幅增加阻碍了其在视频编码领域的应用。因此,如何提高H.265的编码效率,降低其编码计算复杂度成为目前视频编码领域的研究热点。龙芯3B多核处理器作为国产高性能处理器,主要面向高性能服务器市场,视频编码作为基础服务应用,开展龙芯多核平台下的H.265/HEVC研究和性能优化具有重要的意义。  本文完成的主要工作和贡献如下:  第一,针对HEVC帧内预测复杂度增加的特点,在进行了大量编码数据统计的基础上,给出了一种模式分类方法,将预测模式划分为A类和DP类,通过分析DP类模式预测单元自身的特点以及DP类模式和周围预测单元的空间相关性,给出了一种帧内最优模式类别判断算法。基于模式划分和模式类别判断算法,提出了一种基于相关性的快速帧内模式预测算法。  第二,针对x265(H.265标准的开源实现)在龙芯3B多核处理器平台并行性能表现不佳的情况,对x265的并行算法进行了深入的研究和分析,发现了原始并行算法在龙芯多核平台的性能瓶颈,在此基础上,提出并实现了一种GOP并行编码方案,针对原始并行算法的强数据依赖和龙芯多核平台NUMA架构的访存特点进行了优化,通过将相互独立的GOP数据分配给不同的CPU节点进行编码,消除了原始并行算法的节点间数据依赖;通过将编码所需的GOP数据分配在编码节点的本地内存降低了并行程序的访存延迟,从而有效提高了x265编码器在龙芯3B多核平台的并行编码性能。  最后,在龙芯3B多核处理器平台上对本文提出的优化算法进行了验证和测试。其中基于相关性的快速帧内模式预测算法相比原始算法平均有31.78%的性能提升;GOP并行算法相比原始并行算法,在近乎相同的编码质量情况下,平均能够节省111.53%的编码时间。
其他文献
学位
作为传统虚拟现实技术的下一代革新,基于深度图像绘制的自由视点技术允许观看者在一定的范围内自主地选择视角观看其感兴趣的内容,使图像不再局限于若干个有限的固定视角,向观看
学位
学位
学位
指令级测试在当今测试领域正显示出越来越重要的应用价值,随着设计的复杂度日渐增大电路频率不断提高,集成电路的测试面临更加严峻的挑战。指令级测试作为一种低成本低功耗的测
脑卒中是严重危害人类健康的难治性脑血管疾病,具有发病率高、致残率和死亡率高的三大特点。虽然早期预防和治疗能够大大减少脑卒中的发生,但是临床发现大部分病人在症状已经较
学位
随着科学日新月异的发展,科技文献的数量以爆炸式速度快速增长,新的科学问题层出不穷,越来越多的科研人员投入到科技创新的事业中去。这些因素都导致科学研究世界中存在着越来越
数据中心的规模持续增长,以满足科学计算和商业应用的需求。作为数据中心内部的信息传输系统,数据中心网络由所有的数据流所共享,导致这些数据流之间的性能干扰。而且,数据中心应