论文部分内容阅读
图像重建插帧技术是计算机视觉和图形学中一个重要的研究课题,其在图像增强、图像压缩以及慢动作视频生成等领域都起到了重要作用。由于目前主流的基于帧的图像重建插帧算法依赖于亮度不变假设和线性运动假设,使得其在面对非线性运动或者亮度变化较大的情况时无法很好地实现图像重建插帧。另外,基于帧的图像重建插帧算法在面对高速运动场景时,其图像重建性能也会严重下降。因此,传统的基于帧的图像重建插帧算法在处理复杂运动、明暗对比强烈或高速场景时存在局限性。近些年,结合事件相机的图像重建插帧技术正逐渐成为研究热点,相关算法利用事件数据低延迟和高动态范围的特性,可以有效弥补基于帧的图像重建插帧算法目前所存在的问题。基于此,本文主要从以下三个方面进行研究与改进:(1)针对传统卷积神经网络无法处理异步、非均匀时空分布的事件数据的问题,本文以数据驱动的方式通过一系列可微操作将事件数据转换为基于网格的学习表示,允许卷积神经网络以端到端的方式学习事件数据与图像数据的高维特征,从而解决事件数据表征以及事件相机与传统CCD/CIS相机(Charge Coupled Device/CMOS Image Sensor,CCD/CIS)的数据融合问题。实验结果表明,本文所设计的事件网格学习表征方法能够有效运用在目标分类任务和光流估计任务中,其在N-MNIST数据集中的分类精度达到92.5%,在N-Caltech101数据集中的分类精度达到82.76%,在MVSEC数据集中光流估计的平均端点误差(Average End-point Error,AEE)比EV-Flow Net平均下降了8%。(2)针对传统的基于帧的图像重建插帧算法在面对非线性运动、高速场景或明暗对比强烈的复杂情况时无法有效估计图像像素运动的问题,本文提出一种基于多模态数据融合的图像重建插帧算法EV-Fusion,其将事件数据与图像数据进行数据融合,实现在高速或明暗对比强烈的场景中的图像生成和插帧任务。实验结果表明,本文所提出的EV-Fusion模型所生成的五倍图像重建插帧结果在峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和图像结构相似度(Structural Similarity Image Metric,SSIM)这两个指标中分别达到了33.46和0.816,而七倍图像重建插帧结果在PSNR和SSIM这两项指标中分别达到了32.35和0.815,两项指标皆优于目前诸如Super SLo Mo、DAIN、BMBC、RRIN等主流的基于帧的图像重建插帧算法。(3)针对传统的基于监督学习机制的深度学习算法需要大量高帧率数据集作为真实图像样本,以及监督学习机制无法突破帧率的限制的问题,本文提出一种基于顺时序无监督学习机制的图像重建插帧算法Unsupervised EV-Fusion,该算法利用事件数据本身“像素运动过程全覆盖”的特点,循环自洽地完成图像生成和插帧任务,摆脱了基于监督学习机制的图像重建插帧算法需要高帧率数据集的桎梏,并且能够实现模型插帧帧率超越数据集帧率上限。实验结果表明,本文提出的Unsupervised EV-Fusion模型即使没有高帧率真实图像样本作为学习目标,但五倍重建插帧结果的PSNR和SSIM仍然达到了32.85和0.820,而七倍重建插帧结果的PSNR和SSIM也达到了32.20和0.816,两项指标皆优于目前诸如Unsupervised SuperSLoMo、TimeReplayer等基于无监督学习机制的图像重建插帧算法。