论文部分内容阅读
行人检测旨在检测出图片或视频序列中是否存在行人并对其定位,通常用于智能监控、智能机器人以及自动驾驶领域中。作为众多任务的重要前置处理环节,它常常与行人跟踪、行人重识别以及行人分析等技术相结合。因此,行人检测算法的性能密切影响后续任务的效果,提升行人检测算法的精度有着不容忽视的意义。尽管近年来行人检测已经取得了很大的突破,但是仍存在一些问题需要解决,比如严重的遮挡程度、巨大的尺度差异、复杂的背景以及场景迁移等。我们关注于其中两个关键问题:(1)由于行人距离摄像头的远近会直接导致图像中目标尺寸的变化,这就造成尺度差异成为行人数据集中显著存在的问题,这是影响检测器性能的一个关键因素,如何设计一个对尺度不敏感的行人检测器就显得尤为重要。(2)实际使用中通常涉及不同场景,若对所有场景下的数据进行标注存在一定的难度,我们能够获得的数据更多的是无标签数据,如何将有标签场景下的模型迁移到无标签的场景下是值得关注的问题。本文中我们围绕这两个问题展开研究,主要工作如下:在第一个工作中,我们将关注于多尺度特征的提取与融合。多尺度特征表示是解决计算机视觉任务中尺度差异的常用方法,现有方法对于多尺度特征的利用过于简单,导致在检测多尺度行人目标时性能提升有限。我们首先分析了不同尺度特征之间的信息差异,提出了一种跨尺度的双向特征增强模块,利用高底层特征之间的互补性增强不同尺度的特征。为了提取不同层的多尺度行人特征,我们针对行人特性设计了一种基于行人先验知识的多尺度特征提取网络,它更加关注行人区域。最后我们通过自适应的多尺度特征融合方法将不同层的特征融合成最终的预测特征图,使得我们的网络对于多尺度目标有更大的容忍度。在第二个工作中,我们关注于行人检测中的无监督域适应问题。由于实际使用中通常涉及许多不同场景,重新标注这些场景下的数据从头训练存在很多的重复工作。我们希望通过迁移学习将源域数据上训练的有监督模型迁移到无标签的目标域数据上,使得在目标域上也有较好的性能。我们将无监督域适应问题模拟成半监督问题,采用平均教学方法实现源域数据到目标域数据的迁移。通过提升教师模型与学生模型的一致性表示,可以促进教师模型与学生模型共同学习,进而提高在无监督场景下的检测性能。