论文部分内容阅读
H.265/HEVC作为新一代视频编码标准,在压缩效率、网络适应性和并行处理能力等方面相比上一代视频编码标准H.264有了极大的提高,但是其压缩性能的提高建立在编码计算复杂度成倍增加的基础上,复杂度的大幅增加阻碍了其在视频编码领域的应用。因此,如何提高H.265的编码效率,降低其编码计算复杂度成为目前视频编码领域的研究热点。龙芯3B多核处理器作为国产高性能处理器,主要面向高性能服务器市场,视频编码作为基础服务应用,开展龙芯多核平台下的H.265/HEVC研究和性能优化具有重要的意义。 本文完成的主要工作和贡献如下: 第一,针对HEVC帧内预测复杂度增加的特点,在进行了大量编码数据统计的基础上,给出了一种模式分类方法,将预测模式划分为A类和DP类,通过分析DP类模式预测单元自身的特点以及DP类模式和周围预测单元的空间相关性,给出了一种帧内最优模式类别判断算法。基于模式划分和模式类别判断算法,提出了一种基于相关性的快速帧内模式预测算法。 第二,针对x265(H.265标准的开源实现)在龙芯3B多核处理器平台并行性能表现不佳的情况,对x265的并行算法进行了深入的研究和分析,发现了原始并行算法在龙芯多核平台的性能瓶颈,在此基础上,提出并实现了一种GOP并行编码方案,针对原始并行算法的强数据依赖和龙芯多核平台NUMA架构的访存特点进行了优化,通过将相互独立的GOP数据分配给不同的CPU节点进行编码,消除了原始并行算法的节点间数据依赖;通过将编码所需的GOP数据分配在编码节点的本地内存降低了并行程序的访存延迟,从而有效提高了x265编码器在龙芯3B多核平台的并行编码性能。 最后,在龙芯3B多核处理器平台上对本文提出的优化算法进行了验证和测试。其中基于相关性的快速帧内模式预测算法相比原始算法平均有31.78%的性能提升;GOP并行算法相比原始并行算法,在近乎相同的编码质量情况下,平均能够节省111.53%的编码时间。