论文部分内容阅读
随着信息技术的不断发展,人工智能在生活中应用广泛。例如:卷积神经网络的出现让视频传输、图像识别、语音识别、无人驾驶等技术有了突破性的进展。由于人们不满足于现有的视频形式,全景视频应运而生。与普通视频相比,全景视频分辨率更高,具有更全面更清晰的观感。同时,全景视频也具有数据量大,难以完整、正确传输的缺点。近几年,虚拟现实成为热门研究方向,全景视频作为其主要的呈现形式之一,保证全景视频的传输质量十分重要。本论文主要针对全景视频的错误隐藏技术,结合全景视频的特点以及生成对抗网络模型进行研究。1.针对全景视频的特点,本论文对全景视频数据集进行预处理。与普通视频相比,全景视频最主要的特点是,全景视频在传输过程中顶部和底部区域基本不变,发生变化的区域主要是全景视频的中间区域。针对于这个特点,本论文首先通过相邻两帧之间的残差信息,以宏块为单位,将全景视频分为相对运动区域和相对静止区域。然后分别对两个区域进行剪裁,得到小分辨率的图片集合。最后,将该图片集合转换为TFRecord文件。经过以上步骤制作了一个基于全景视频的分辨率小的数据集。2.为了解决全景视频在传输过程中出现错误的情况,本论文提出了一个基于GAN的网络模型PV-GAN。对于出现数据缺失的情况,采用该网络模型比其他网络错误隐藏的效果,SSIM和PSNR平均提高了 1%。PV-GAN分为一个生成器网络和两个辨别器网络。其中生成器网络用于修复全景视频传输过程中有损帧缺失的部分,并且修复之后的图片欺骗两个辨别器网络。两个辨别器网络包括一个全局辨别器网络和一个局部辨别器网络。这两个辨别器网络一起用于把生成器网络生成出来的图片和真实图片进行区分。此时,生成器网络和辨别器网络形成博弈。在这个过程中,生成器网络生成的图像更贴近真实图像,从而欺骗辨别器网络,使得辨别器网络分不出是生成的图像还是真实的图像。这样修复之后的帧和真实的帧更为相近,从而能够达到全景视频在传输过程中错误隐藏的目的。