论文部分内容阅读
行人检测是物体检测领域的一个重要研究内容,相关成果已经被用于实际生活的诸多方面,例如高级辅助驾驶、安全监控、智能机器人等。行人检测问题的研究对于人民生命安全乃至国家安全具有重大意义,其研究具有良好的理论意义和巨大应用价值。目前的行人检测并没有深究什么样的网络结构,什么样的深度学习方式更适合于行人检测。针对上述问题,本文通过多组对比实验分析了适用于行人检测问题的网络结构,总结了将深度学习应用于行人检测,在数据收集,训练方式等方面应该注意的问题。另一方面,基于深度学习的行人检测在提取特征时只利用了深度网络最后一层卷积层上的特征,而忽略了中间层特征,本文提出将深度网络不同层的特征进行融合,来获得更好行人特征表达。为了探究不同的深度卷积神经网络在行人检测任务中的性能差异,本文基于Faster R-CNN深度学习算法框架,在Caltech与PSDB行人数据集上对AlexNetGoogLeNet以及VGGNet三个深度网络结构的性能进行了比较。通过改变数据集、改变训练数据的数量、对比训练过程中各阶段的检测率,对不同网络的泛化能力、学习能力以及收敛速度进行了对比。同时,本文选择具有传导中间网络层特征的ResNet网络结构,将浅层的网络特征与深层的网络特征进行充分融合,基于Faster R-CNN,在PSDB数据集上进行实验,使行人检测的性能获得了进一步的提升。本文通过对三种经典的网络结构进行了多组对比实验,系统地分析了有利于行人检测性能提升的方法,得出了以下3点结论:(1)在数据量大于10万时,选择8层以上的网络有利于性能的提升,并且一定程度加深网络层数,可以进一步提升检测性能;数据量小于3万时,不建议选择深度卷积网络模型做行人检测。(2)网络层数小于8层时,训练的迭代次数不宜超过5万次,否则容易发生过拟合。(3)选择包含多种场景行人的行人数据集有利于网络的学习,PSDB数据集值得推广。这三条结论为基于深度学习的行人检测在网络结构的选择上给予了一定指导意义。同时,本文提出的融合不同网络层特征的方法,与性能良好的VGGNet相比,漏检率降低了2.1个百分点,表明了融合网络中间层的特征可以一定程度的提高网络性能,为相关工作提供了参考。