论文部分内容阅读
图像分类是计算机视觉领域最基础的研究任务之一。近年来,随着人们日常生活场景需求的变更以及市场化因素,研究者们从对猫、狗、花、鸟等大尺度粗粒度图像分类任务的研究关注,逐渐过渡到这些基本类别子类的细粒度图像分类任务上。但是由于细粒度图像样本间极高的相似度,使得在传统图像分类任务上表现优异的深度卷积神经网络却难以有效地胜任细粒度图像分类任务。如何构建分类性能高、计算复杂度低和迁移能力强的细粒度图像分类网络成为该领域研究的重点和难点。本文的研究目标是构建具有高分类性能的弱监督细粒度图像分类网络模型,仅需要提供图像级别的类别标签就能够完成网络端到端的训练和测试过程。通过结合多尺度特征金字塔的思想并引入双域注意力机制,对现有的经典算法模型B-CNN(Bilinear CNN)和CBP(Compact Bilinear Pooling)进行改进。取得的主要研究进展和成果如下:(1)针对目前主流的细粒度图像分类网络仅仅使用单一卷积层提取的顶层特征进行分类而导致识别精度损失的严重缺陷。本文首先从卷积神经网络的工作机理出发,构建多尺度特征金字塔融合网络,其能够充分提取并融合网络浅层和深层输出的表征细粒度图像全局和局部判别性区域信息的一阶和二阶特征用于分类过程;其次,在网络结构中分别嵌入由不同数量1?1卷积核构建的瓶颈层模块和批量归一化层模块。并在CUB-200-2011、Stanford Cars和FGVC-aircraft三个公开的细粒度图像基准数据集上进行了大量的消融实验。实验结果表明:本文提出的多尺度特征金字塔融合网络能够分别大幅度提升两个基线模型B-CNN和CBP的分类性能,同时在网络结构中进一步嵌入瓶颈层和批量归一化层两个模块后,可以实现多层特征的有效降维、大幅度缩减了模型的参数量,并加快了网络的训练收敛速度。(2)针对现有的主流细粒度图像分类网络在训练时仅仅是将各个卷积层提取的特征图以级联的方式进行逐层映射,在此过程中忽略了对于初始卷积特征图更为细粒度层面的特征值分布的关注,从而造成网络模型分类性能的瓶颈。本文分别从卷积特征图的通道域和空间域等不同维度引入注意力机制,并同时考虑双域混合,设计出四种高效、灵活的注意力关注模块。同时为了验证各个注意力关注模块的性能,将其分别嵌入到之前构建的各个特征融合网络中,并在CUB-200-2011、Stanford Cars和FGVC-aircraft数据集上进行实验。实验结果表明:在网络结构中分别嵌入这些轻量级的通用注意力关注模块后均能够稳定提升各初始特征融合网络的分类性能。尤其是基于串行级联方式的各双域混合注意力网络在相应测试集上分别取得了86.2%、93.02%、91.0%的分类精度,优于目前的Mask-CNN、RA-CNN、HIHCA等知名算法,充分验证了本文的双域混合注意力特征融合网络方法是一种性能优良的基于弱监督信息的细粒度图像分类算法。