基于FCOS和YOLOv4的行人检测算法研究

来源 :常州大学 | 被引量 : 0次 | 上传用户:zhuyx82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人检测是指在图像或者视频中检测行人对象,并标记出行人在图像或者视频中的相对位置。在实际场景下,由于行人目标偏小、行人间相互遮挡、行人被其他物体遮挡等情况的出现,使得行人检测具有极大的挑战性。行人检测在智能视频监控、车辆自动驾驶等领域有着广泛的应用,这也让行人检测成为一项热门的研究课题。本文在单阶段目标检测算法上,针对行人检测在实际检测场景下的难点,将算法进行改进,提高算法在行人检测任务上的性能。具体工作如下:(1)提出基于改进FCOS模型的拥挤行人检测算法。采用主干网络Vo VNet,并融合SENet提取行人特征,改进的主干网络可以更好的契合FCOS并提取更具判别性的行人特征。Vo VNet将行人特征重用,SENet中的SE模块可以在几乎不增加模型时间复杂度的情况下提高模型检测的精度。根据FCOS算法特点改进多尺度方法检测行人,检测拥挤行人或小目标行人时,FCOS存在检测精度不高、误检错检等情况,多尺度的改进可以增加特征金字塔网络中的特征层,利用新的特征层检测小目标行人,同时缩小其他特征层检测范围,提高了模型检测小目标行人和拥挤行人的精度。通过在Crowdhuman数据集上,改进后的FCOS算法平均准确率达到85.1%,丢失率降低到50.2%,说明本方法在行人检测的效果上有较好的提升;在Caltech数据集上平均准确率也有提升,证明本方法的鲁棒性较好。(2)在YOLOv4检测算法模型的基础上,针对行人检测中的难点做出改进,首先采用k-means++聚类算法计算出预设候选框尺寸,使其符合行人目标大小。引入排斥损失函数,候选框与临近的非匹配目标真实框距离最大化,使候选框和其他目标真实框的重叠比例最小化,从而提高模型检测行人之间互相遮挡的性能。在Crowdhuman和Caltech数据集上平均精度均有提升,丢失率均有降低,证明改进后YOLOv4方法的有效性。(3)将改进后的FCOS算法和YOLOv4算法均用Crowdhuman数据集训练,并用于实际场景下检测行人。本文对比了两种方法在Crowdhuman和Caltech数据集上的模型推理时间,证明两种方法的实时性较好,并且将改进后的YOLOv4算法用于分辨率1920*1080的视频下,运行速度达到每秒45帧,进一步证明该算法满足实际场景下实时行人检测的要求。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
行人重识别的目的是判断无交叉的摄像机所拍摄的行人是不是同一身份。根据数据的组成不同,可以分为基于图片和基于视频两大类,相比于单张图片,视频行人重识别是由多张图片组成的视频片段,包含更丰富的时间信息,而且摄像机拍摄的原本就是视频数据,更容易获取,因此本文的研究主要以视频行人重识别方法为主。目前,大多数方法都是基于有监督的设置并且已经获得了很好的性能,但是现实场景中,最初获得的视频数据往往是无标记的,
随着社会安全意识的提高,城镇的一些重要场所对监控摄像头的需求越来越大。行人重识别受到了专家学者的关注,大量成果涌现而出。行人重识别主要有两种:图像行人重识别和视频行人重识别。前者利用行人图像匹配同一行人在不同摄像机视图下的行人图像,后者直接利用信息更加丰富的行人视频片段匹配同一行人在不同的摄像机视图下的行人视频片段。为了达到数据集标注少但模型精度高的目的,本文着重研究单标注样本视频行人重识别,针对