论文部分内容阅读
随着通信技术、大数据以及多媒体技术的发展,多媒体应用已在人们的生活中扮演着越来越重要的角色。移动终端的普及以及视频分辨率的增长使得互联网上传输的视频数据量呈迅猛增长态势,给视频编码带来了前所未有的挑战。近年来,以深度学习为代表的人工智能技术在图像处理、计算机视觉以及自然语言理解等领域取得了巨大的突破。深度神经网络具有强大的非线性表达能力,可以进行端到端训练的方式实现联合优化。如何将深度学习技术与视频编码结合起来,利用深度学习进一步提升视频编码的性能是一个具有价值的课题。
现有的视频编码标准中采用基于运动补偿的帧间预测技术来去除时间冗余,从而降低待编码块的编码码率。由于数字采样的缘故,物体的实际运动往往无法与采样网格对齐,因此难以在参考帧中找到精确的匹配块。为了解决这个问题,视频编码中引入了分像素运动补偿的概念,通过插值滤波器从整像素图像插值得到分像素图像,利用得到的分像素图像进行运动补偿。传统的分像素运动补偿一般是使用简单的有限冲激响应滤波器,固定的线性滤波器实现简单复杂度低,但是难以处理视频信号中普遍的非线性和非平稳性,编码效率有待提高。本文主要研究如何利用深度学习技术学习更加高效的插值滤波器,从而提高分像素运动补偿的编码性能。
本文的主要的创新点和贡献如下:
1.本文提出了首个基于卷积神经网络的分像素插值技术。卷积神经网络的有监督训练需要预先确定网络的输入和目标输出,即本文中的整数图像和分数图像。但是由于分数图像在数字采样时并未获取,因此无法获得训练所需的训练数据。针对分像素样本无法获取的问题,本文首先分析了数字图像的成像原理,提出了基于高斯低通滤波和多相抽样的分像素样本生成算法。此外,由于一般视频编码中采用的是有损编码,参考帧中存在编码噪声。为了处理参考帧存在的编码噪声,本文提出基于量化参数的训练数据产生方法。最后,本文进一步提出利用卷积神经网络训练得到更加高效的插值滤波器。本文的结果证实了基于深度学习的分像素插值技术的有效性。
2.本文提出了基于帧间回归模型的的分像素运动补偿方法。从率失真优化的角度看,分像素运动补偿的目的是提高帧间预测的精度,因此本文将分像素运动补偿定义为帧间回归问题,即将参考图像的整像素样本映射为当前待编码图像样本的映射过程。本文进一步设计了基于卷积神经网络的学习算法求解上述帧间回归问题。HEVC中采用了双向预测技术,采用两个预测块的平均值作为当前编码块的预测。针对双向预测问题,本文提出了一般化的分像素插值模型,将双向预测的分像素插值看作是二元回归模型,即将两个方向的整像素参考块映射为当前待编码块。为了求解双向预测中的分像素插值问题,本文设计了迭代求解算法,将二元回归模型转化为两个一元回归模型。此外,本文提出了基于视频序列的分像素插值模型的训练数据产生方法。本文进一步研究了如何更加灵活高效地将训练得到的插值模型集成到HEVC参考软件中。实验结果显示,本文提出的基于卷积神经网络的分像素运动补偿方法可以显著提高帧间预测的编码性能。
3.本文提出了基于可逆性的插值滤波器的训练方法。本文首先从整像素和分像素具有的空间位置的对偶性,揭示了分像素插值的可逆性,即理想的插值滤波器不仅能从整像素插值得到分像素,还可以从分像素插值得到整像素。本文进一步从信号处理的角度给出了可逆性的理论解释。利用可逆性,本文提出了插值滤波器的无监督训练算法,并设计了相应的端到端的训练框架。本文设计了两种损失函数来优化所提出的训练框架,包括可逆重建损失函数以及分像素正则损失函数。本文提出的基于可逆性的插值滤波器的训练方法不再需要手工设计的分像素样本作为标签数据,克服了之前基于学习的插值滤波器的缺点。
现有的视频编码标准中采用基于运动补偿的帧间预测技术来去除时间冗余,从而降低待编码块的编码码率。由于数字采样的缘故,物体的实际运动往往无法与采样网格对齐,因此难以在参考帧中找到精确的匹配块。为了解决这个问题,视频编码中引入了分像素运动补偿的概念,通过插值滤波器从整像素图像插值得到分像素图像,利用得到的分像素图像进行运动补偿。传统的分像素运动补偿一般是使用简单的有限冲激响应滤波器,固定的线性滤波器实现简单复杂度低,但是难以处理视频信号中普遍的非线性和非平稳性,编码效率有待提高。本文主要研究如何利用深度学习技术学习更加高效的插值滤波器,从而提高分像素运动补偿的编码性能。
本文的主要的创新点和贡献如下:
1.本文提出了首个基于卷积神经网络的分像素插值技术。卷积神经网络的有监督训练需要预先确定网络的输入和目标输出,即本文中的整数图像和分数图像。但是由于分数图像在数字采样时并未获取,因此无法获得训练所需的训练数据。针对分像素样本无法获取的问题,本文首先分析了数字图像的成像原理,提出了基于高斯低通滤波和多相抽样的分像素样本生成算法。此外,由于一般视频编码中采用的是有损编码,参考帧中存在编码噪声。为了处理参考帧存在的编码噪声,本文提出基于量化参数的训练数据产生方法。最后,本文进一步提出利用卷积神经网络训练得到更加高效的插值滤波器。本文的结果证实了基于深度学习的分像素插值技术的有效性。
2.本文提出了基于帧间回归模型的的分像素运动补偿方法。从率失真优化的角度看,分像素运动补偿的目的是提高帧间预测的精度,因此本文将分像素运动补偿定义为帧间回归问题,即将参考图像的整像素样本映射为当前待编码图像样本的映射过程。本文进一步设计了基于卷积神经网络的学习算法求解上述帧间回归问题。HEVC中采用了双向预测技术,采用两个预测块的平均值作为当前编码块的预测。针对双向预测问题,本文提出了一般化的分像素插值模型,将双向预测的分像素插值看作是二元回归模型,即将两个方向的整像素参考块映射为当前待编码块。为了求解双向预测中的分像素插值问题,本文设计了迭代求解算法,将二元回归模型转化为两个一元回归模型。此外,本文提出了基于视频序列的分像素插值模型的训练数据产生方法。本文进一步研究了如何更加灵活高效地将训练得到的插值模型集成到HEVC参考软件中。实验结果显示,本文提出的基于卷积神经网络的分像素运动补偿方法可以显著提高帧间预测的编码性能。
3.本文提出了基于可逆性的插值滤波器的训练方法。本文首先从整像素和分像素具有的空间位置的对偶性,揭示了分像素插值的可逆性,即理想的插值滤波器不仅能从整像素插值得到分像素,还可以从分像素插值得到整像素。本文进一步从信号处理的角度给出了可逆性的理论解释。利用可逆性,本文提出了插值滤波器的无监督训练算法,并设计了相应的端到端的训练框架。本文设计了两种损失函数来优化所提出的训练框架,包括可逆重建损失函数以及分像素正则损失函数。本文提出的基于可逆性的插值滤波器的训练方法不再需要手工设计的分像素样本作为标签数据,克服了之前基于学习的插值滤波器的缺点。