论文部分内容阅读
随着互联网视频数据的快速增长和相关新型应用的涌现,视频的高效压缩和传输成为学术界和产业界深入研究的热点问题。
本文提出了一种新的视频编码和传输框架,该框架应用多线性子空间技术对视频数据进行分析,所得到的子空间划分不仅有助于去除视频中包含的冗余相关性,更能进一步提取其中蕴含的语义信息,从而部分克服了传统编码方法中仅从像素级别进行压缩的不足。在该框架的基础上,本文还研究了张量空间的变换编码、基于视觉注意力模型的可伸缩视频编码以及非平衡差错保护和错误隐藏等问题。
当前视频编码方法大多单纯在像素级上去除冗余信息,难以在视觉对象级别对视频内容进行概括。本文提出了一种基于多线性子空间分析的视频编码机制。该机制采用广义主成分分析(Generalized Principal Component Analysis,GPCA)方法对视频帧进行多线性子空间划分,并将每个子空间近似地看作一组高度相关的视觉对象,在各子空间中分别进行变换编码。由于同一子空间内图像块之间在统计意义上相关度更高,因此基于GPCA的视频编码可达到更好的去相关目的。与此同时,同一子空间内的图像块在语义上彼此相关度较高,常常代表了同一组视觉对象,因此可有效用于后续的视频语义分析。
传统的变换编码技术只在水平和竖直两个一维方向上分别独立进行去相关变换,忽略了图像块之间存在的高阶相关性。作为理论上最优的酉变换,KL变换(Karhunen Leove Transform)方法不仪复杂度高,还必须把图像块转换成向量形式处理,忽略图像块之间的空间结构。针对这一问题,本文结合张量和矩阵代数等理论,提出了基于张量空间的KL变换方法。该方法的空间和时间复杂度比基于向量空间的KL变换大大降低,也取得了较好的视频压缩效果。
现有的可伸缩编码方法仅从时空分辨率和图像质量上来划分基本层和增强层,用户一般希望基本层尽可能多地包含其感兴趣的内容。本文在多线性子空间视频编码的基础上,提出基于视觉注意力模型的可伸缩编码,结合语义来划分基本层与增强层,使得基本层信息更能满足用户的需求。
编码后视频在传输过程中通常会由于各种原因出现数据包丢失或误码的情况,在差错保护和错误隐藏中结合编码阶段所获取的语义信息,本文提出了基于多线性子空间分析的非平衡差错保护和错误隐藏方法,在网络状况恶劣的条件下有效地提高了网络视频的播放质量。