论文部分内容阅读
视频目标跟踪一直是计算机视觉领域的热点和难点问题,有着广阔的现实应用需求和发展前景,如视频监控、无人驾驶、精确制导和战场侦察等。本文研究单摄像机、单目标、短时和不限类别的目标跟踪问题,其定义是通过检测器或人工标注的方式给定目标在视频初始帧中的位置和尺度,估计目标在后续视频图像帧中的状态信息(如位置、尺度和运动轨迹等)。长期以来,科研工作者在视频目标跟踪的理论和应用上都积累了丰富的成果。但是,实现复杂环境下任意目标的实时鲁棒跟踪仍然面临着很多的困难和挑战。自2012年以来,基于相关滤波器和孪生网络的方法逐渐成为视频目标跟踪领域的两个主流方向,并在多个公开数据集上占据了排行榜的前几名。基于相关滤波器的目标跟踪方法基于循环移位假设实现了对搜索区域的密集采样,同时利用循环移位样本在频域可对角化的特性,实现了滤波器系数的高效求解和目标的快速定位。但是循环移位假设引入了边界效应,导致相关滤波算法的准确检测区域十分有限。基于孪生网络的目标跟踪方法利用大量标注数据端到端离线训练孪生网络学习图像间的匹配机制用于在线跟踪,实现了目标的快速鲁棒跟踪。但是此类方法基于高层语义特征匹配图像对,很容易受到背景中相似目标的干扰,同时此类方法中采用的固定或线性更新模板的方式均不能有效捕获目标的外观变化。针对上述问题,论文创新性地提出了相应的解决方案,实现了可见光单模态视频中目标的实时鲁棒跟踪,并进一步将相关滤波器和孪生网络的跟踪理论扩展到可见光和深度(RGB-Depth,RGBD)以及可见光和热红外(RGB-Thermal,RGBT)视频中,实现了双模态视频下目标的鲁棒跟踪。本文的主要工作和创新点如下:1.提出了一种基于自适应加窗相关滤波器的可见光视频目标跟踪方法。为了解决现有的相关滤波跟踪方法中使用的余弦窗和正则化约束项在克服边界效应时的缺陷和不足,该方法基于目标与背景的颜色直方图分布采用贝叶斯分类器计算出搜索区域的颜色窗,并将其与余弦窗融合得到自适应窗作用于搜索区域提取的特征上。自适应窗有效地抑制了搜索区域内的背景像素并突出了目标像素,调整相关滤波器更多地关注在目标区域。通过逐帧更新颜色直方图分布,自适应窗可以时刻捕获目标的外观变化。实验结果表明基于自适应窗的相关滤波算法极大地提高了基准算法的跟踪性能且保持着与基准算法相近的跟踪速度。2.提出了一种基于孪生网络多层特征联合学习的可见光视频目标跟踪方法。为了解决孪生网络跟踪方法中存在的相似目标干扰问题,该方法利用网络层次特征表示的互补性设计了Hyper-Siamese网络,通过连接网络的不同层构建目标的高维特征表示,弥补了仅利用高层语义特征带来的背景中相似目标干扰问题。Hyper-Siamese网络采用大量标注数据端到端离线训练后用于在线目标跟踪。通过可视化网络不同层的特征和对比网络不同层连接情况下的跟踪结果,证明了不同层特征均有利于目标跟踪。实验结果证明该方法取得了较高的跟踪精度且能实时运行,针对相似目标干扰问题,本文提出的方法也具有更好的跟踪性能。3.提出了一种基于孪生网络目标似然度建模和模板动态更新的可见光视频目标跟踪方法。针对孪生网络跟踪方法中存在的背景干扰和模型更新问题,该方法分别提出了目标似然度建模和目标模板建模模块。目标似然度建模基于目标与背景间的颜色差异,利用颜色信息计算出搜索区域的目标概率图,并将其与孪生网络得到的响应图融合,有效缓解了背景干扰。目标模板建模采用高斯混合模型描述目标的外观,在有效捕获目标外观变化的同时减少了样本间的冗余。多个公开数据集上的实验结果表明本文提出的方法较绝大多数主流的跟踪方法性能好,且能满足实时跟踪的需求。4.提出了一种基于空间特征加权和遮挡检测的RGBD视频相关滤波跟踪方法。为了充分利用RGBD数据中深度信息对可见光信息的互补特性,本文综合利用深度、颜色和目标位置的先验信息计算出目标和背景区域的精细分割图用于搜索区域的空间特征加权和遮挡检测。加权后的特征调整相关滤波器更多地关注在目标区域;遮挡检测机制能够及时发现目标遮挡,防止错误更新引入模型污染。该方法可以将任意的RGB相关滤波算法转化为RGBD跟踪算法。实验结果表明,提出的方法提高了所有基准相关滤波算法的跟踪性能,其中提出的性能最好的跟踪算法在已有的两个公开数据集上均取得了当时最高的精度。5.提出了一种基于双分支孪生网络的RGBT视频目标跟踪方法。为了充分利用RGBT数据中可见光和热红外信息间的互补特征,该方法设计了双分支孪生网络,包含一个可见光分支和一个热红外分支,分别处理不同模态的视频。网络参数采用迁移学习和微调思想离线训练得到,有效缓解了红外训练样本的不足。该方法进一步提出了两种评价标准度量响应图的置信度,并将两种模态下的响应图根据置信度自适应融合后定位目标。实验结果表明我们提出的算法在公开数据集最大精确率和最大成功率指标上分别排名第二和第一,达到了现有的技术发展水平。