基于相关滤波器和孪生网络的视频目标跟踪方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:mohuan88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频目标跟踪一直是计算机视觉领域的热点和难点问题,有着广阔的现实应用需求和发展前景,如视频监控、无人驾驶、精确制导和战场侦察等。本文研究单摄像机、单目标、短时和不限类别的目标跟踪问题,其定义是通过检测器或人工标注的方式给定目标在视频初始帧中的位置和尺度,估计目标在后续视频图像帧中的状态信息(如位置、尺度和运动轨迹等)。长期以来,科研工作者在视频目标跟踪的理论和应用上都积累了丰富的成果。但是,实现复杂环境下任意目标的实时鲁棒跟踪仍然面临着很多的困难和挑战。自2012年以来,基于相关滤波器和孪生网络的方法逐渐成为视频目标跟踪领域的两个主流方向,并在多个公开数据集上占据了排行榜的前几名。基于相关滤波器的目标跟踪方法基于循环移位假设实现了对搜索区域的密集采样,同时利用循环移位样本在频域可对角化的特性,实现了滤波器系数的高效求解和目标的快速定位。但是循环移位假设引入了边界效应,导致相关滤波算法的准确检测区域十分有限。基于孪生网络的目标跟踪方法利用大量标注数据端到端离线训练孪生网络学习图像间的匹配机制用于在线跟踪,实现了目标的快速鲁棒跟踪。但是此类方法基于高层语义特征匹配图像对,很容易受到背景中相似目标的干扰,同时此类方法中采用的固定或线性更新模板的方式均不能有效捕获目标的外观变化。针对上述问题,论文创新性地提出了相应的解决方案,实现了可见光单模态视频中目标的实时鲁棒跟踪,并进一步将相关滤波器和孪生网络的跟踪理论扩展到可见光和深度(RGB-Depth,RGBD)以及可见光和热红外(RGB-Thermal,RGBT)视频中,实现了双模态视频下目标的鲁棒跟踪。本文的主要工作和创新点如下:1.提出了一种基于自适应加窗相关滤波器的可见光视频目标跟踪方法。为了解决现有的相关滤波跟踪方法中使用的余弦窗和正则化约束项在克服边界效应时的缺陷和不足,该方法基于目标与背景的颜色直方图分布采用贝叶斯分类器计算出搜索区域的颜色窗,并将其与余弦窗融合得到自适应窗作用于搜索区域提取的特征上。自适应窗有效地抑制了搜索区域内的背景像素并突出了目标像素,调整相关滤波器更多地关注在目标区域。通过逐帧更新颜色直方图分布,自适应窗可以时刻捕获目标的外观变化。实验结果表明基于自适应窗的相关滤波算法极大地提高了基准算法的跟踪性能且保持着与基准算法相近的跟踪速度。2.提出了一种基于孪生网络多层特征联合学习的可见光视频目标跟踪方法。为了解决孪生网络跟踪方法中存在的相似目标干扰问题,该方法利用网络层次特征表示的互补性设计了Hyper-Siamese网络,通过连接网络的不同层构建目标的高维特征表示,弥补了仅利用高层语义特征带来的背景中相似目标干扰问题。Hyper-Siamese网络采用大量标注数据端到端离线训练后用于在线目标跟踪。通过可视化网络不同层的特征和对比网络不同层连接情况下的跟踪结果,证明了不同层特征均有利于目标跟踪。实验结果证明该方法取得了较高的跟踪精度且能实时运行,针对相似目标干扰问题,本文提出的方法也具有更好的跟踪性能。3.提出了一种基于孪生网络目标似然度建模和模板动态更新的可见光视频目标跟踪方法。针对孪生网络跟踪方法中存在的背景干扰和模型更新问题,该方法分别提出了目标似然度建模和目标模板建模模块。目标似然度建模基于目标与背景间的颜色差异,利用颜色信息计算出搜索区域的目标概率图,并将其与孪生网络得到的响应图融合,有效缓解了背景干扰。目标模板建模采用高斯混合模型描述目标的外观,在有效捕获目标外观变化的同时减少了样本间的冗余。多个公开数据集上的实验结果表明本文提出的方法较绝大多数主流的跟踪方法性能好,且能满足实时跟踪的需求。4.提出了一种基于空间特征加权和遮挡检测的RGBD视频相关滤波跟踪方法。为了充分利用RGBD数据中深度信息对可见光信息的互补特性,本文综合利用深度、颜色和目标位置的先验信息计算出目标和背景区域的精细分割图用于搜索区域的空间特征加权和遮挡检测。加权后的特征调整相关滤波器更多地关注在目标区域;遮挡检测机制能够及时发现目标遮挡,防止错误更新引入模型污染。该方法可以将任意的RGB相关滤波算法转化为RGBD跟踪算法。实验结果表明,提出的方法提高了所有基准相关滤波算法的跟踪性能,其中提出的性能最好的跟踪算法在已有的两个公开数据集上均取得了当时最高的精度。5.提出了一种基于双分支孪生网络的RGBT视频目标跟踪方法。为了充分利用RGBT数据中可见光和热红外信息间的互补特征,该方法设计了双分支孪生网络,包含一个可见光分支和一个热红外分支,分别处理不同模态的视频。网络参数采用迁移学习和微调思想离线训练得到,有效缓解了红外训练样本的不足。该方法进一步提出了两种评价标准度量响应图的置信度,并将两种模态下的响应图根据置信度自适应融合后定位目标。实验结果表明我们提出的算法在公开数据集最大精确率和最大成功率指标上分别排名第二和第一,达到了现有的技术发展水平。
其他文献
目前,医学数据正在急剧增长,来自区域医疗诸多医院的病历文本数据、医学检验数据和影像数据迅速汇聚,为疾病的筛查、诊断和治疗带来曙光。医学文本数据尤其是电子病历数据,记录了患者详细的病情和治疗过程,所含信息丰富,因此,开展医学文本挖掘中关键技术的研究,提取与某疾病相关的特征并构建相应的知识图谱,可更加科学、客观地预防、筛查疾病并给出合理的治疗方案,最终为广大患者提供更好的医疗服务,具有很好的理论和实际
运动实体广泛存在于攻防体系对抗实验等军事分析仿真应用中,其连续运动行为导致时空状态更新占据了应用大部分的通信内容,成为影响和制约运行效率的关键因素。传统的通信优化技术主要面向于提高数据传输速度或过滤冗余通信链路,并不能有效解决大规模时空数据传输引起的通信瓶颈问题。因此,开展以减少时空状态信息通信量为目标的相关技术研究,对于提高通信性能,有效利用现有的计算和通信资源,满足军事分析仿真日益增长的性能需
人脑在多个时空尺度的信息交互是支撑其复杂认知和行为功能的基础,我们尝试利用磁共振成像非侵入式和较高时空分辨率的特点,研究人脑的神经信息交互机理。本文主要以静息状态下人脑的功能连接为对象,进行人脑在多时空尺度下的功能单元划分及其交互模式研究,同时探寻其结构基础。本文主要包含以下三个方面的内容:(1)人脑功能剖分方法研究。人脑的功能单元具有明显的层次性,他们之间通过复杂的功能分离和整合来完成特定的认知
在当今社会,随着传感器和计算机视觉技术的发展,人们对视频监控自动化和智能化技术有了更多的需求和研究。前景检测作为计算机视觉领域的基础技术,目的是将运动的前景物体从相对静止的背景场景中分离出来,是计算机视觉分析理解任务中的第一个问题。由于应用场景的复杂性,目前传统前景检测算法性能面临瓶颈。提高算法准确性、增强算法实时应用能力,以及提高算法鲁棒性是前景检测技术的研究重点。本文首先针对阴影和颜色伪装等应
随着计算机技术、多媒体存储技术的发展,人们的生活中充斥着海量多媒体数据,这些多媒体数据包括图像、文本、语音、视频等不同的模态。面对海量多模态数据,如何快速、有效的从中检索出感兴趣信息,是一项亟待解决的重要问题。单模态检索与跨模态检索是解决多模态数据检索的重要研究方向。哈希技术因其低存储消耗、高检索速度成为海量数据检索的研究热点,在单模态与跨模态检索研究领域得到广泛的研究与发展。本文研究单模态与跨模
穿透散射介质的光学成像技术是近年来光学计算成像领域的重点研究方向之一,在军事侦察、消防搜救、汽车自动驾驶、水下成像、医学探测等领域有着重要的应用前景。现有多种用于穿透强散射介质成像的散射成像技术,都有不同优缺点,其中基于光学相位恢复的散射成像技术具有更好的发展前景,有望实现大视场、远距离、高质量的穿透成像。针对现有基于光学相位恢复的散射成像技术普遍存在的问题,本文从光学相位恢复方法的两种代表性技术
隐身战斗机、小型无人机等弱目标的出现给防空系统造成了严重的威胁,针对弱目标的联合检测跟踪技术研究也因而成为当前理论研究的前沿和热点。检测前跟踪,区别于传统的先检测后跟踪方法,能够利用多帧观测数据,不断累积目标信息,进而达到增强目标强度的目的。本文针对检测前跟踪算法在多种场景下的运用做了大量的研究,研究内容主要包括以下几个部分:第二章利用贝叶斯理论构建了统一的目标跟踪推理框架,为跟踪算法的推导作了理
当前,计算机技术发展日新月异,随着医疗器械的配套更新,医学图像的数据也越来越丰富。面向医学图像的处理和分析能够对医生的诊断和治疗起到辅助、启发和推动作用。医学图像分割是医学图像处理的基础技术,可以根据应用需求,对医学图像中的兴趣区域进行像素级的标记。医学图像的成像方式繁杂,图像特征各异,同时,不同成像方式下的医学图像可能会针对不同人体部位,这些都导致了医学图像分割需要针对不同成像方式的数据构建不同
随着信息技术的高速发展,爆炸式增长的信息对人们处理信息的技术提出了更高的要求,现在技术无法有效满足信息利用的时效性。自动文本摘要作为一种减轻信息过载、提高信息利用效率的技术,在实践中有着广泛的应用,如自动生成新闻文章和技术文章的标题、摘要,自动生成搜索引擎检索结果的概述,写稿机器人等。在上个世纪90年代以前,自动文本摘要以无监督技术为主,由于缺乏有效的监督机制,并受限于当时的计算资源,这些方法通常
通过视觉实时精确感知机体自身状态和被跟踪目标运动状态,是无人机自主遂行特定任务的重要环节。近年来,基于视觉的目标位置估计研究取得了较为显著的进展和成果。姿态作为另一类空间状态,蕴含着位置无法表征的运动信息,研究位置和姿态的联合估计对于无人机任务能力提升具有重要的理论意义和应用价值。本文以序列图像为基础,分别从广义特征和深度特征两个层面入手,充分利用深度学习等新技术,在数据中挖掘并学习视觉目标的浅层