论文部分内容阅读
随着计算机硬件的不断升级和深度学习算法的兴起,计算机视觉领域的研究取得了巨大的突破。目标检测任务是计算机视觉中最重要的子任务之一。通常目标检测算法遵循三段式过程,首先是生成候选检测框,再是为候选框预测打分,最后通过后处理算法获得最终输出。候选框生成阶段对每个目标物体产生的大量带有冗余的候选框,后处理算法的目标则是去除目标物体上的冗余候选框,仅为目标物体保留一份最匹配的候选框。目前几乎所有目标检测器均使用非极大值抑制算法作为后处理算法。非极大值抑制算法通过迭代的选择最高置信度的候选框,抑制与该候选框重叠比例大于某个阈值的候选框完成后处理过程。在目标密集重叠的复杂场景中,目标检测算法能够生成足够优秀的候选框,但非极大值抑制算法简单的使用交叠阈值来抑制或保留候选框不能很好的兼顾准确率和召回率。如何改进目标检测的后处理过程对于提升目标检测算法在重叠场景下的能力具有极其重要的意义。本文针对重叠场景下目标检测器生成的候选框特点以及非极大值抑制算法自身的缺陷,提出了多阶段的目标检测后处理算法。该算法通过区域划分、目标数量预测、密集区域内候选框选择、结果合并四个阶段完成后处理过程。区域划分过程通过聚类方法将图片划分为拥有不同目标密度的子区域对原问题分而治之。目标数量预测过程通过统计密集区域内部候选框的分布特征及交互高阶特征对密集区域内部的目标数量进行预测,进而使用数量信息辅助后处理过程。密集区域内候选框选择过程则是基于预测的目标数量,将密集区域内部的候选框划分为固定数量的簇,并以目标数量作为约束条件改进行列式点过程算法,完成密集区域内部的候选框选择。不同密集区域输出的结果具有丰富的多样性,能够很好的弥补非极大值抑制算法的不足,最终本文融合二者的输出获取最终结果。本文在两个具有大量重叠的行人数据集上,分别使用了两种不同的基目标检测器对算法的效果进行了验证,使用准确率召回率及F值进行实验结果评价。实验结果证明在不同的数据集及不同目标检测器上,本文提出的多阶段后处理算法性能均优于其他后处理算法,证实了该方法的有效性和泛化性。