论文部分内容阅读
视觉跟踪是计算机视觉中最经典、最热门的研究课题之一,在智能监控、自动驾驶、人机交互等实际场景中得到了广泛的应用,具有重要的研究和应用价值。现有的跟踪器大多数集中在可见光视频上,许多机器学习算法被引入到跟踪领域,并取得了良好的性能。然而,由于低照度、恶劣天气等诸多挑战性因素的存在,阻碍了跟踪性能的进一步提高。因此,如何在极具挑战性的环境下实现鲁棒性的视觉跟踪变得越来越重要和迫切。最近的一些工作集中在融合热红外视频和可见光视频的多光谱视觉跟踪,并使这两种模态互补,即使在极端挑战性的环境下,能够实现鲁棒的视觉跟踪。具体来说,在夜间RGB相机失败时,热红外传感器仍然可以工作。当目标物体和背景温度相近时,热红外传感器容易受到热交叉的影响,RGB相机没有这个问题,在这种情况下它可以帮助视觉跟踪。已有的工作主要集中在多模态视觉跟踪任务和实验对比的基准上。这些工作为进一步的研究提供了一定的理论基础,并引起了越来越多的关注。为了进一步完善多模态视觉跟踪任务,本文主要从以下三个方面展开研究:(1)构建了一种综合的多模态视觉跟踪数据集。目前的多模态数据集都存在着一些局限性,如场景不够多样、挑战因素较少等,导致不能够客观全面去评价多模态目标跟踪算法的性能。本文中介绍了两套采集多模态视频的拍摄设备,两套设备配合使用,能够为本文后面的实验提供一个较为统一全面的多模态视频数据集,如多种场景、多种挑战、多种目标类型等。只有在构建了一个统一全面的多模态视频数据集的基础上,才能够客观合理去评价一个多模态目标跟踪算法。(2)提出了 一种基于自适应模态选择的多模态目标跟踪算法。为了避免低质量模态的噪声影响和提高跟踪方法的效率,在多模态跟踪过程中,对于每个模态,使用聚类方法将目标区域及周围背景区域各聚为若干个子类,然后通过它们子类之间的特征差异衡量出判别性较大的模态,选择判别性最大的模态对目标使用相关滤波算法进行跟踪。同时,为了维持各个模态的目标模型的有效性,提出了一种双阈值策略更新所有模态的跟踪模型。(3)提出了一种新的基于深度强化学习的多模态目标跟踪框架。将深度强化学习引入到多模态目标跟踪领域中,把多模态跟踪问题看作是一个决策问题,通过不断地选择动作,从而实现动态的移动包围框,完成整个跟踪过程。通过智能体和环境的交互来完成跟踪过程,可以将跟踪过程中物体的定位和尺寸的变换融合到一个框架中,并且通过动作的选择,同时完成两个任务。