论文部分内容阅读
互联网技术的不断发展使得人们获取信息的方式愈发多样化,但是也产生了大量的冗余信息,因此增加了从大量繁杂数据尤其是图像视频数据中提取感兴趣信息的难度。计算机视觉技术可以让计算机模拟人的眼睛完成对图像或者视频的处理,能够帮助人们从大量的冗余数据中提取有用信息。视频目标分割作为计算机视觉技术重要的组成部分,在视频编码、视频编辑、动作识别、自动驾驶等领域有着重要的应用价值。视频目标分割的发展呈现高分割精度、高分割速度和普适性好的趋势,所面临的挑战主要有两点:(1)待分割视频本身通常存在目标外貌变化过大、目标遮挡、目标丢失或相似物体干扰等情况,增大了视频目标分割的难度;(2)算法的分割精度、分割速度和普适性通常无法同时达到最优,因此需要在三者之间寻求一个平衡。传统算法大多无法兼顾视频本身存在的所有分割难点,也无法很好地协调高分割精度、高分割速度和普适性好这三个需求之间的平衡。本文针对上述问题,从视频目标分割的需求出发,着眼于克服视频目标分割面临的挑战,凝练并围绕两个关键问题:“高性能特征匹配方法的设计”和“先验信息的充分利用和防丢失”,开展基于先验信息和特征匹配的视频目标分割研究。本文的主要内容和创新点如下:(1)提出了一种基于先验概率和度量学习的视频目标分割算法。传统基于特征匹配的视频目标分割算法通常使用分类置信度较高的特征更新参考空间,虽然提升了算法的分割精度,但是尺寸逐渐变大的参考空间严重降低了算法的分割速度。针对这一问题,本文提出了“固定尺寸的参考空间更新策略”,使得算法在更新参考空间时既能够保证新的有用信息的加入,又能够保持参考空间的尺寸不变大。同时,本文利用“基于先验概率的特征匹配方法”将特征先验概率引入特征分类概率的计算过程,既能够减少参考特征被直接分类导致的信息损失,又能够提升特征分类概率计算的准确度。在DAVIS数据集上的实验结果表明,所提出的算法能够有效提升分割速度,也能够保证最优的分割精度。(2)提出了一种基于先验位置和匹配解码的视频目标分割算法。在传统基于特征匹配的算法中,与目标特征高度相似的噪声特征将严重影响特征分类的准确度。另外,利用双线性插值方法从特征分类概率中获取图像分割掩膜的过程没有充分利用图像的特征信息,并且容易丢失图像的细节信息。针对上述问题,本文提出了“基于特征流的训练和测试策略”和“基于匹配分数的解码模块”,前者通过在算法训练和测试的过程中引入特征位置信息提升邻近特征之间的相关性并减弱噪声特征对分类结果的消极影响;后者通过特征增强模块和特征优化模块提升算法对图像特征和图像细节信息的利用。在DAVIS数据集上的实验结果表明,所提出的算法能够有效增强邻近特征之间的相关性,消除噪声特征的不利影响,且分割得到的掩膜具有更多的细节信息。(3)设计了一个基于先验信息和特征匹配的视频目标分割原型系统。本文针对视频目标分割的高分割精度、高分割速度和普适性好的要求,将研究过程中提出的所有模块整合,搭建了一个统一的视频目标分割原型系统。该原型系统通过四个训练阶段调整各个模块的参数,完成系统的组建,通过一个测试阶段完成对测试视频快速、准确的目标分割。在DAVIS数据集上的实验结果表明,所设计的原型系统能够有效满足高分割精度、高分割速度和普适性好的需求。