论文部分内容阅读
本文主要研究视频编码帧间预测技术中的算法优化问题。帧间预测技术是视频编码的重要组成部分,包括整数和分数运动估计与补偿、多模式决策、多参考帧运动估计等。帧间技术能够大幅度提高编码性能,但同时也大大增加了编码计算复杂度。例如,1/4分数点运动补偿是最新视频编码标准H.264中的核心技术之一,能够提供2~3dB的视频质量提高或者30%左右的码率下降,但其代价是在编码过程中会占用高达60%~80%的计算资源。多参考帧和多模式的引入,也有类似的优点和缺点。因此,新编码标准中帧间预测技术的算法优化一直是视频编码领域备受关注的问题之一。另一方面,我们总是希望在同样的硬件成本下获得最好的编码效率和视频图像质量,这就引出了第二个问题,如何设计视频编码算法,使其在任意一个给定的计算平台上都有最好的率失真性能。帧间技术高计算复杂度的性质,使得它们在计算能力受约束的硬件平台下实用程度大大降低,即使是快速算法在具有不同计算能力的平台上往往也不都能完全执行。这就导致了当算法由于计算资源不足而被迫停止时,通常得不到在相同计算能力下最优的率失真性能。
本文的研究内容主要有两个部分,一是针对计算资源占用较多的1/4分数点运动估计和补偿算法,提出一种性价比优先的搜索和插值顺序,并得到基于性价比优先原则的分数点运动估计和分数点插值算法,在几乎不损失质量的前提下大大提高算法速度。同时这类算法很容易加以改造成为自适应算法,自动适合具有不同计算能力的系统。二是作为尝试,研究了视频编码在给定计算能力的条件下如何自动调整获得更好的率失真性能的一些问题。这部分研究主要针对帧间预测已经存在的算法,通过统计和校正的方法建立率失真收益和计算复杂度之间的关系模型,将宏块按一定的准则排序,从而构造满足率失真最优的、可伸缩的复杂度控制算法。
本文创新之处有两点:一是提出了性价比优先的运动估计和插值顺序,使得我们可以以不同于传统的、只单独优化分数点运动估计或分数点插值算法的方式,以性价比优先顺序作为准则,使得分数点运动估计和分数点插值按照相同的顺序进行优化,大大降低了计算复杂度和内存需求,同时保持质量和码率几乎不变。二是首次提出了在宏块级别上帧间预测技术的计算复杂度和率失真收益的近似建模方法,为此类研究的后续工作,提供了一个研究框架。
根据本文的大量实验结果可以看到,本文提出的基于性价比优先的分数点运动估计和分数点插值算法在保持质量的情况下速度大大提高,并可节省大量内存。我们使用一个综合指标同时度量分数搜索点和插值点数量,并考虑插值方法本身的复杂度,可以得到本算法在几乎完全没有编码质量和效率损失的前提下,比起快速搜索算法CBFPS+X264的插值算法XFPI,平均提高67.4%的速度,并节省96%的内存需求。而比起全搜索算法FFPS+XFPI,则性能更好,提高的计算速度平均可以达到99.1%,同时依然减少96%的内存需求。此外,实验结果也支持了我们第二部分研究工作的结果。