论文部分内容阅读
行人检测是指在图像或者视频中检测行人对象,并标记出行人在图像或者视频中的相对位置。在实际场景下,由于行人目标偏小、行人间相互遮挡、行人被其他物体遮挡等情况的出现,使得行人检测具有极大的挑战性。行人检测在智能视频监控、车辆自动驾驶等领域有着广泛的应用,这也让行人检测成为一项热门的研究课题。本文在单阶段目标检测算法上,针对行人检测在实际检测场景下的难点,将算法进行改进,提高算法在行人检测任务上的性能。具体工作如下:(1)提出基于改进FCOS模型的拥挤行人检测算法。采用主干网络Vo VNet,并融合SENet提取行人特征,改进的主干网络可以更好的契合FCOS并提取更具判别性的行人特征。Vo VNet将行人特征重用,SENet中的SE模块可以在几乎不增加模型时间复杂度的情况下提高模型检测的精度。根据FCOS算法特点改进多尺度方法检测行人,检测拥挤行人或小目标行人时,FCOS存在检测精度不高、误检错检等情况,多尺度的改进可以增加特征金字塔网络中的特征层,利用新的特征层检测小目标行人,同时缩小其他特征层检测范围,提高了模型检测小目标行人和拥挤行人的精度。通过在Crowdhuman数据集上,改进后的FCOS算法平均准确率达到85.1%,丢失率降低到50.2%,说明本方法在行人检测的效果上有较好的提升;在Caltech数据集上平均准确率也有提升,证明本方法的鲁棒性较好。(2)在YOLOv4检测算法模型的基础上,针对行人检测中的难点做出改进,首先采用k-means++聚类算法计算出预设候选框尺寸,使其符合行人目标大小。引入排斥损失函数,候选框与临近的非匹配目标真实框距离最大化,使候选框和其他目标真实框的重叠比例最小化,从而提高模型检测行人之间互相遮挡的性能。在Crowdhuman和Caltech数据集上平均精度均有提升,丢失率均有降低,证明改进后YOLOv4方法的有效性。(3)将改进后的FCOS算法和YOLOv4算法均用Crowdhuman数据集训练,并用于实际场景下检测行人。本文对比了两种方法在Crowdhuman和Caltech数据集上的模型推理时间,证明两种方法的实时性较好,并且将改进后的YOLOv4算法用于分辨率1920*1080的视频下,运行速度达到每秒45帧,进一步证明该算法满足实际场景下实时行人检测的要求。