论文部分内容阅读
现代网络视频传输系统中为了尽可能地压缩数据流,节约带宽,广泛使用了空间预测编码和熵编码。这导致视频数据流对误码十分敏感。对于实时视频传输系统而言,为了在易丢包网络上达到良好的视频传输效果,必须存在某种QoS(服务质量)机制。然而不幸的是,当今的英特网缺乏路由器一级的QoS机制,这就迫使因特网上的实时视频传输系统必须在应用层自己实现这一功能,以提高视频传输系统的鲁棒性。
我们提出了一个易丢包网络上的通用实时视频传输架构。该架构的核心内容包括2个方面:端到端的应用层QoS机制和全局率失真优化的编码模式选择。应用层QoS机制提高了系统的鲁棒性,全局率失真优化的编码模式选择提高了端到端的视频质量。采用这个架构可以迅速开发健壮的视频应用。我们以两个基于此架构开发的具体产品IP-CAM和EMP4VS为例详细介绍了该架构的具体应用和端到端QoS的实现方法。
全局率失真优化方法可以针对端到端的全局失真做出优化的编码模式选择,以达到在易丢包网络上传输的最佳视频效果。Zhang等人提出的全局失真模型ROPE(Recursive Optimal Per-pixel Estimate),可以通过递归计算得到像素级全局失真,并能在整像素预测模式下取得比较精确的结果。然而,在许多现代编码技术例如H.264中,广泛使用了半像素精度及1/4像素精度预测。在此种场合下,运动矢量可能会指向半像素或者1/4像素位置,这导致了像素之间的交叉耦合关系。ROPE算法在这些应用场合效果不佳。
此外,ROPE模型采用了一个简单的Bernoulli网络丢包模型建立全局失真估计。Bernoulli模型假设网络按照一个平均概率p随机地丢包。然而,在实际的包交换网络例如英特网(Internet)或者无线网络,误码或者丢包现象并非均衡地以固定概率出现在报文传输过程中。统计表明,传输错误往往呈现突发性。突发错误报文长度一般来说会大于1,这种行为用Gilbert丢包模型可以更精确地建模。因此,ROPE模型对于全局失真的估计仍不够精确。
T.Stockhammer等提出的MD模型能够较好地匹配H.264视频编码标准,当其模拟次数增加时,可以得到较为精确的端到端全局失真估计。然而,其计算复杂度相当高,对编码端的计算能力和存储能力提出了很高的要求。随着模拟次数的增加,其实现具有很大的难度。
论文中我们详细讨论了ROPE模型和JV小组推荐的MD模型。针对上述ROPE模型的两个缺点,我们从半像素精度对ROPE做出扩展,进而采用Gilbert丢包模型将其扩充到计算复杂度适中的GE-ROPE模型。通过仿真试验我们发现,GE-ROPE在各种测试条件下基本都领先于H.264标准制定小组JVT推荐的MD模型大约0.5~43.7dB。考虑到子像素优化的ROPE模型性能与MD相当,则此0.54~3.7dB的增益应为Gilbert模型优化的结果。随着丢包率的持续升高,GE-ROPE领先MD模型的幅度有轻微增加,这是因为高丢包率环境下的突发错误长度往往会更长,因此Gilbert模型显得更为精确。在20%丢包率环境下,GE-ROPE优化模式与随机宏块刷新模式相比,性能提高达4dB左右。