论文部分内容阅读
随着智慧城市的大力建设,监控摄像头等终端设备的体量暴增,对于终端设备的智能化分析需求也越来越大。作为计算机视觉任务中不可或缺的基础,目标检测因其重要的应用价值而获得广泛的关注与研究。近年来,深度学习的飞速发展使得目标检测的性能得到了极大的提升。然而,现有的目标检测网络由于其较大的计算量和参数量,大多不能应用于计算能力和存储资源有限的设备,如电子芯片、手机等。
为了实现专用于资源限制场景的轻量级视觉目标检测网络,基于深度学习方法,提出了两种轻量级视觉目标检测算法:(1)利用深度卷积等轻量高效的卷积技术,提出一种新颖并有效的结构,名为双路合并的轻量级密集块(2-way MLDB),主要创新点是在骨干网络的密集块中合并两个独立分支的重复部分,以获得具有较少参数和较小计算量的多视野域特征,将其应用于精心设计的骨干网络框架中,能够获得较高检测精度的轻量级模型。表现最好的网络结构被称为基于分支合并的轻量级目标检测网络。(2)针对轻量级目标检测网络中存在的由于参数量急剧减小而导致的精度下降等问题,构建了一种基于注意力预测块(APB)的类FPN的SSD检测头部,通过较少的参数量与计算量的增加,进行多尺度特征融合,并获得每个尺度上最具有判别力的检测特征,从而获得了检测精度上的较大提升,尤其是小目标的检测精度。其中表现最好的网络称为BMNet。
在两个经典数据集(PASCALVOC和MSCOCO)上的广泛实验证明了本文所提出的两种算法在参数大小、计算量(FLOPs)和精度方面优于最先进的轻量级目标检测解决方案,如TinySSD、MobileNet-SSD、MobileNetv2-SSD和Pelee等。具体来说,融合本文提出的两种算法之后,最好的模型在PASCALVOC2007test数据集上实现了77.05%的检测精度,而模型仅有1.49M参数量和1.51B计算量,资源需求相对较低且模型不需要分类预训练,能够很好地应用于资源限制场景。
为了实现专用于资源限制场景的轻量级视觉目标检测网络,基于深度学习方法,提出了两种轻量级视觉目标检测算法:(1)利用深度卷积等轻量高效的卷积技术,提出一种新颖并有效的结构,名为双路合并的轻量级密集块(2-way MLDB),主要创新点是在骨干网络的密集块中合并两个独立分支的重复部分,以获得具有较少参数和较小计算量的多视野域特征,将其应用于精心设计的骨干网络框架中,能够获得较高检测精度的轻量级模型。表现最好的网络结构被称为基于分支合并的轻量级目标检测网络。(2)针对轻量级目标检测网络中存在的由于参数量急剧减小而导致的精度下降等问题,构建了一种基于注意力预测块(APB)的类FPN的SSD检测头部,通过较少的参数量与计算量的增加,进行多尺度特征融合,并获得每个尺度上最具有判别力的检测特征,从而获得了检测精度上的较大提升,尤其是小目标的检测精度。其中表现最好的网络称为BMNet。
在两个经典数据集(PASCALVOC和MSCOCO)上的广泛实验证明了本文所提出的两种算法在参数大小、计算量(FLOPs)和精度方面优于最先进的轻量级目标检测解决方案,如TinySSD、MobileNet-SSD、MobileNetv2-SSD和Pelee等。具体来说,融合本文提出的两种算法之后,最好的模型在PASCALVOC2007test数据集上实现了77.05%的检测精度,而模型仅有1.49M参数量和1.51B计算量,资源需求相对较低且模型不需要分类预训练,能够很好地应用于资源限制场景。