论文部分内容阅读
目标跟踪是计算机视觉中一个具有挑战性的任务。近些年来,随着深度学习技术的发展,基于单次深度学习的目标跟踪算法受到了人们的广泛关注。基于单次学习的目标跟踪方法指的是在离线训练的基础上,在在线跟踪的过程中不对模型调整,因此单次深度学习的目标跟踪算法较其他基于深度学习的跟踪方法在速度上有很大的优势。但是,在现在的单次深度学习算法中,大部分使用的都是较深层的特征,虽然深层的特征包含了更多的语义信息但是分辨率太低不利于目标的准确定位,这大大影响了深度跟踪算法的性能。在训练的过程中,存在着大量的容易样本,虽然它们产生的损失函数值较小,但是这些损失的累积可以主导梯度的更新方向进而影响训练的效率与效果。针对上述问题,受人类视觉机制的启发,本文设计了融合深度神经网络浅层与深层特征的两种方法,一种是将不同层的响应加权相加,另一种是基于自顶向下的特征融合模块,基于此获得对目标更加准确的表示。另外本文提出了在线困难样本挖掘以及基于合页损失(Hinge Loss)的容易样本处理方式,去从模型训练的角度提高模型的性能。在多个数据集上的实验结果结果验证了本文提出的多层特征融合以及容易样本处理方式的有效性,但是性能相比目前最优秀的方法(state-of-the-art)还是有差距。单次学习跟踪算法的局限性体现在缺乏目标的时序信息,无法预测目标与背景在后续帧中的变化。因此本文设计了基于单次学习机制的人工标注实验,结果表明虽然人眼具有很强的学习能力,人眼标注的结果并没有达到或者超过最优秀方法的性能。为了克服单次深度学习算法的局限性,本文将基于背景感知的相关滤波器嵌入到深度神经网络中,提出了利用时序信息的联合学习特征表示与截断推理过程的跟踪框架RTINet。实验表明,RTINet的性能超过了很多最优秀的方法,并且它的快速版本在损失较少精度的情况下能达到24帧每秒的实时跟踪速度。