论文部分内容阅读
行人检测是指通过算法对图片或视频中的行人做出准确识别,属于目标检测的一个实例,由于其在机器人、无人驾驶、智能安防和智能监控等领域有着重要的应用,已经成为重点研究对象,虽然经过多年的发展,检测性能取得了极大提升,但是在实际场景中人的穿着、光照及背景、身体姿态、遮挡等因素导致行人的外观变化很大,从而给识别带来难度。传统行人检测方法的主要步骤是首先将图片预处理,然后是特征提取、特征选择,最后训练分类器来预测。其缺点是基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余,对于目标外观和场景的变化没有鲁棒性。传统方法通常是组合多个低层特征,没有利用图像更高层次的更加抽象特征,其检测精度和速度达不到实时要求。随着深度学习在目标检测领域取得的巨大成功,近期有大量文献表明用深度学习做行人检测能够提高检测性能。本文在已有的基础上进行了进一步研究。针对当前目标检测经典框架fater-rcnn存在对小目标的检测性能欠佳的问题,本文提出了混合多刻度网络的深度学习行人检测方法。该方法由2个部分组成,一个是目标区域提取,另一个是目标检测。在目标提取和目标检测的网络结构中都采用了多刻度的方法,通过对比单刻度与多刻度,发现多刻度方法能够提高检测精度,同时在实验中对比了不同的检测网络大小对性能的影响。本方法在Caltech数据集上漏检率为10.61%,ETH数据集上漏检率为35.14%,INRIA数据集上漏检率为10.48%。神经网络的深度对目标检测的性能有很大影响,通常增加网络的深度可以提高神经网络的性能,本文提出了基于通道选择的深度学习行人检测方法。该方法是在SSD目标检测框架的VGG16网络中加入SE模块,不再使用传统的对输入通道经过卷积后的结果进行简单的叠加,而是去寻找各通道间的相关性,给予各通道不同的权值,然后再进行加权求和。该方法组成的行人检测系统,取得良好的性能。实验结果表明,本方法在Caltech数据集上漏检率为10.01%,ETH数据集上漏检率为32.08%,INRIA数据集上漏检率为9.28%。