论文部分内容阅读
光场图像是能够对三维场景进行表达的一种新型数据结构。一张光场图像理论上完整地记录了空间内所有光线在所有空间和角度位置下的情况,可以用于三维重建、深度估计、重聚焦等等方面。现实中已经有大量的游戏、穿戴设备等应用了光场技术,能够提供更加自然的三维仿真体验。光场图像可以由普通相机通过扫描式或阵列式结构拍摄,再或者由专门的光场相机进行拍摄。光场相机使用内置的微透镜阵列对同一场景进行多空间位置,多角度方向的拍摄,其中包含了同一场景的四维信息。与普通图像相比,其具有超大的数据量、超高的空间冗余量。光场图像在存储、可视化等等方面还有大量需要被完成的基础工作。当前主流的光场图像处理过程都需要先将其解码为伪序列。解码后的图像阵列是相邻帧具有微小变化的二维序列,按照不同的扫描方式可以将其一维化转换为伪序列。伪序列的表示使得光场的空间角度结构得到了更加清晰的展现。与一般图像集相比,这样的伪序列在帧与帧之间仅具有微小的空间角度参数变化。本文将利用这样的特性,针对光场图像压缩算法和对象分割算法两方面的具体实现来进行讨论,对帧间相似性提出相应的更为恰当的度量,以提高算法的性能。针对伪序列的压缩算法,我们使用基于视频压缩的框架,通过调整伪序列的编码顺序、QP分配和参考帧选取等重要的编码参数得到优化的编码结构。我们参考了二维层次编码的工作,其将一维层次编码的思想应用于二维情况,确定了帧的编码顺序。我们还参考了利用帧的空间位置对帧进行层次划分的工作,确定QP的分配。同时,我们使用了基于SIFT算子的算法代替基于空间位置的算法来计算帧间相似度,根据帧间相似度的度量自适应地进行参考帧的选取。我们在和参考工作同样的数据集上做了测试。针对伪序列的分割算法,我们考虑到伪序列的帧按扫描顺序连续形变,我们将其扩大到更一般的视频分割问题上。考虑到帧间只存在微小的局部变化,我们提出了时间不变性特征的假设,以度量帧间语义的相似性。我们参考了 U-Net和孪生网络的结构,利用下采样和最大池化的性质自然地处理局部形变,同时提取对应的时间不变性特征,并设计了相应的网络结构。我们对时间不变性特征的模型做出了分析,得到了相应的损失函数。在帧间对象存在全局位移的情况下,我们的假设不再适用。为了解决全局位移的问题,我们设计了两种附加的结构。其中,基于LSTM的结构允许时间不变性特征在时间上有微小的变化,而基于强化学习的结构先单独对整体位移做出校正,再使用我们提出的原始网络进行训练。随后我们在DAVIS-2016数据集上做了相应的测试。