论文部分内容阅读
目标检测(object detection)是计算机视觉领域里一个非常重要的研究问题。随着近年来深度卷积神经网络的发展,其中基于深度学习的目标检测算法在性能上取得了巨大的进步。但是目前最先进的目标检测算法需要带有精确目标物体位置标签的数据来训练模型,而这种标签信息需要花费大量人力物力来标注,同时也会引入人工标注偏差。本文的研究内容是基于弱监督学习的目标检测问题,即没有精确的目标物体位置标签,只用图像的类别标签来学习目标检测器。基于弱监督学习的目标检测有着广泛的应用和重要的意义,也是近年来的计算机视觉领域的热门研究点。当前基于弱监督学习的目标检测算法大多是基于局部、候选区域层次的信息。对此,本文提出一种算法探索和结合无监督的目标物体全局的形状和位置信息来协助模型的训练。本文的主要研究内容可以概括为以下三点:1.本文提出特定类别的像素梯度图。在训练过程中,本文提取图像的特定类别的像素梯度图。基于特定类别的像素梯度图,模型可以粗略估算目标物体的形状和位置;2.本文利用目标物体的粗略估计和候选区域位置的关系,提出了候选区域的空间约束。基于候选区域的空间约束,模型能把特定类别的全局信息和候选区域的局部信息引入模型的学习过程中;3.本文提出一种多中心正则化来惩罚预测得分比较高的候选区域的特征和对应类别的特征中心的不一致。多中心正则化使得模型训练更加的稳定。本文的算法没有提高网络模型的复杂度,也没有使用额外的监督信息。最后,大量的实验结果表明本文的方法取得了优异的弱监督目标检测和定位性能,并超过目前所有最先进的方法。