论文部分内容阅读
目标检测是计算机视觉中重要的基本问题之一,它的目的主要是从静态图片中定位并检测出特定的目标。目标检测技术将图像处理、语义分割、智能场景和自动控制等技术结合起来,在诸如自动驾驶、医学影像、人机交互、运动跟踪等方面有着广泛的应用。基于传统方法的目标检测算法将特征提取和分类决策独立开来,使用人工提取或设计特征,这在面对复杂场景的时候很难得到理想的效果。自从深度学习概念被Hinton教授提出,研究者们发现深度学习方法有着巨大的性能和速度优势,于是越来越多地被应用至各个领域中去,其中包含目标检测。深度学习和浅层学习的区别主要有两点:一、加深了网络模型深度,形成了更多的隐层节点;二、经过每一层的特征变换,将原本输入至网络的图像从一个量化空间变换到另一个新的量化空间,突出了每层特征的特点,使后续的分类检测更加容易。深度学习不仅对模型的表达能力强,而且能够突出目标在背景中的特性,同时这种方法也有一定的生物学基础。本文分析了基于深度学习的目标检测算法的网络结构和实现思路,从计算复杂度、运算效率、特征提取能力和目标框定位准确性等角度出发,对传统目标检测算法和深度学习目标检测算法进行了深入的研究。在此基础上,本文针对现有深度学习目标检测网络的小目标漏检、回归算法条件苛刻等缺点,提出了一种基于多层卷积特征融合和条件概率计算模型的改进目标检测算法。首先,本文使用基于VGG-16的多层特征提取模型获取目标特征信息,不同于经典算法Faster R-CNN中只从最后一层获取特征信息,本文将VGG-16的最后三层分别输出并利用级联函数进行融合,从而使最终获得的特征图中包含了更多的底层信息,这有利于对小目标检测精度的提高。然后,通过可变形层将多维度特征图降维处理成“瘦”特征图,利用区域提取网络RPN处理来自特征提取阶段得到的卷积特征图,输出包含多个建议框的图片。最后,使用条件概率模型计算目标框边界位置实现更精确的目标定位,从而达到提升目标检测精度的目的。为了验证本文提出的改进算法的有效性,本文在领域内常用的目标检测数据集PASCAL VOC 2007/2012和MS COCO 2014上进行改进算法的训练和测试实验,并将结果与当前性能最好的基于深度学习的目标检测算法进行比较。实验结果表明,本文的改进算法在多个数据集上均取得了最好的成绩,平均检测精度值提高了2.1。与基于深度学习网络的经典目标检测算法相比,本文提出的目标检测算法通过条件概率计算模型提升了目标检测框定位准确度,同时利用改进的特征提取模型获取了更多的底层特征信息,达到了对小目标检测效果的改善。