论文部分内容阅读
视觉跟踪旨在训练计算机模拟人类的视觉定位功能,对在运动场景中的目标进行连续跟踪,广泛应用于人机交互、自动驾驶、国防军事、公共监控等领域,现已成为计算机视觉热门研究方向之一。现实物理世界中,视频中的光照变化、杂乱背景、目标的尺寸缩放、遮挡等问题给跟踪任务带来了极大的挑战。为了适应目标的外观变化,主流跟踪算法常采用模式识别方法建立具有学习能力的目标外观模型,并利用跟踪过程中所获取的图像帧对外观模型进行更新。与传统模式识别方法相比,深度学习具有更加强大的非线性拟合能力和自学习能力,能够挖掘数据内部潜在的规律。近年来,此项技术的应用使得目标分类、检测和分割等视觉任务的研究取得了突破性进展。然而,视觉跟踪任务需要解决对非特定目标的普适跟踪,测试目标很可能与训练数据类别不一致。因此,在深度学习的跟踪应用中,外观模型的在线更新成为亟待解决的问题。具体地,对该问题的研究主要存在以下难点:第一,跟踪所能提供的数据有限,对网络进行参数更新时,易陷入局部最优值,尤其在目标外观发生剧烈变化时,网络无法充分适应当前状态,从而导致分类边界模糊;第二,除第一帧外,训练数据的标记依赖于算法在前序帧中目标位置预测的准确性,错误的数据标签会使得深度神经网络在连续更新后不断地累计误差,从而产生错误估计。针对上述问题,本文利用树状结构的分裂机制保留具有多样性的外观模型,并通过集成学习的结合策略,对目标位置进行协同预测。当检测到目标外观发生剧烈变化时,在树中检索与当前目标状态最为匹配的节点,对其进行更新,进而分裂出一个新的节点以存储更新后的模型。由该分裂机制生成的叶子节点所存储的外观模型具有多样性,因而根据集成学习原理,能够产生更加准确的预测结果。树状结构的设计是为了在样本不足的条件下保证各个路径中前后训练样本的一致,同一路径中用于模型更新的正样本变化较为连续,因此能够避免训练数据差异过大而导致的分类边界模糊问题。为了进一步提升算法对目标位置预测的准确性,在节点的更新操作中,本文采用基于主动学习和人工数据的更新策略,提升网络对当前数据的适应性。该策略强调了训练数据的多样性。主动学习能够在训练过程中主动地选择分类边界上的样本,提高模型的学习能力和效率,避免模型对易分类样本产生过拟合。另外,利用特征数据的经验分布生成人工数据,在保持预测准确率的前提下挑选具有多样性的人工特征微调网络,进而弥补训练样本缺失而导致的网络预测误差。针对所提出的目标跟踪算法,本文基于OTB和VOT测试平台,对算法进行了性能评估。首先,对比实验表明,与主流算法相比,本文所设计的算法能够有效地提升跟踪的鲁棒性,并且一定程度上解决了跟踪过程中的光照变化、快速运动、遮挡等问题。其次,对照实验说明,基于主动学习和人工数据的更新策略能够提高深度神经网络的学习效率,增强模型预测的准确性。