论文部分内容阅读
行人检测问题是计算机视觉中的一个关键问题,在自动驾驶、场景理解、事件判断中发挥着重要的作用。行人检测和物体检测任务有相似之处,即识别并定位输入图像中的行人。随着深度学习技术和通用物体检测技术的快速发展,行人检测技术得到了很大程度的发展,但是与人眼相比,其性能仍然有很大的提升空间。目前普遍存在于行人检测方法中的问题,如行人遮挡、行人目标过小、困难负样本等仍有待解决。近些年来,学术界涌现出了很多基于立体视觉的行人检测方法来解决上述问题,但是这些方法也会带来其他问题。例如,结构光是一种主动式的、非友好的成像系统,会对人眼造成伤害。双目视觉系统需要精确的标注,且在实际使用中需要两个传感器配合使用,给实际应用造成不便。光场相机作为一种新型的成像设备,可以在一次曝光中同时记录光线的方向和角度信息。因此光场成像具有相应的两个特点:(1)在一次成像中,能同时获取物体的RGB信息和深度信息;(2)光场图像在曝光完成之后,可以通过相应的计算成像理论获取到物体的重聚焦图像。光场图像的深度信息可以帮助检测器增强判断负样本的能力,而光场重聚焦图像则能为检测器提供更加丰富的特征表达空间。为了利用光场成像解决上述行人检测研究中的问题,本文首先建立了光场行人数据集,并开展了行人识别的研究。接着,针对小尺寸行人,本文使用光场重聚焦技术构建多焦点检测网络提升小尺寸行人的特征表达能力。最后,针对遮挡行人,本文通过构建基于光场信息的遮挡行人检测网络来提升遮挡情形下的行人检测性能。这三个部分从不同的角度对行人识别和检测问题进行了研究和探讨,组成了本论文的主要研究框架。本文的具体贡献如下:第一,本文构建了一个具有3500个样本的光场行人数据集,并根据研究任务将数据集进行了划分,分别为适用于行人识别的数据集、适用于小尺寸行人检测的数据集和适用于遮挡行人检测的数据集。数据集中包含了多种复杂场景的行人样本,能真实的反映现实世界行人的各种场景。在行人识别数据集的基础上,本文提出并构建了光场行人识别网络,该网络将光场图像的RGB信息和深度信息进行特征融合有效地解决了二维平面中虚假行人识别问题。第二,针对小尺寸行人,本文提出一种基于光场重聚焦图像的多焦点检测网络。首先,该检测网络利用多个光场重聚焦图像构建了多路检测分支,其次,为了从多路检测分支中选择最优的检测结果,本文提出了累加概率选择策略。该策略能够依靠神经网络的训练经过反向传播更新每个检测分支的权重,进而选择出每个检测分支中最优的候选框。实验结果表明,本文提出的方法能提升小尺寸行人的检测能力,并有效地抑制类人负样本的误检。第三,针对遮挡行人,本文提出了基于光场信息的遮挡行人检测网络。该检测网络以光场重聚焦图像构建的多焦点检测分支作为主干网络。在此基础上,本文构建了基于光场深度信息引导的RPN网络以筛选区域生成网络中生成的冗余候选框。接着,该网络将每个重聚焦分支的检测结果利用累加概率融合策略进行筛选得到最优的检测结果。实验证明,本文提出的基于光场信息的遮挡行人检测框架可以有效地提升遮挡行人的检测性能。