论文部分内容阅读
随着大数据时代的到来及计算机硬件的发展,尤其是近年来深度学习的兴起,语义级图像分类和实例级图像分类取得了长足的进展,而更具挑战性的细粒度图像分类问题,即关注同一类别内相似子类别的图像分类,如识别不同品种的鸟类,成为一个新的研究热点。本课题立足于海量数据的收集与GPU计算能力的突破,基于兴起的深度学习方法,围绕细粒度问题的本质特点,研究探索细粒度图像的分类方法。在无需物体标注框和关键区域信息的条件下,提出了一种基于图像局部区域的分类框架。基于该框架,研究了两个变型:基于自适应机制的细粒度分类方法(PFNet)和基于高斯混合模型的细粒度分类方法(GMNet)。公开数据集上的测试表明,上述方法在细粒度分类上取得了近期较好的分类精度。本课题主要工作包括以下三个方面:(1)针对细粒度图像高类内方差、低类间方差的特点,提出了一种基于图像局部区域的分类框架。并针对不同图像区域的特点,提出了基于自适应机制的细粒度分类方法(PFNet)。PFNet能够在训练中自适应地融合不同类型的局部区域,包括简单区域、困难区域和背景区域。它主要包括局部特征提取器和两级分类网络。其中,两级分类网络由局部级和整体级损失函数构成。前者通过自适应机制给不同的局部区域分配不同的权重,后者对局部特征融合形成的整体特征进行训练。(2)针对PFNet特征融合方法过于简单、无法对整体分布建模的缺点,进一步改进并提出了基于高斯混合模型的细粒度分类方法(GMNet)。GMNet通过高斯混合层对局部区域特征分布进行建模。它使用若干个高斯核对局部特征进行拟合,并融合得到整体特征。模型的训练是一个嵌套的两层循环。外循环是整体网络的优化,内循环是基于EM算法的高斯混合层训练,两者通过梯度传播进行协同优化。(3)分别对PFNet和GMNet在数据集上的分类表现、参数设置和关键模块作用进行了细致的研究,并给出了定性和可视化分析的结果。实验表明,两个模型在四个广泛使用的数据集CUB-200-2011、Stanford Cars、FGVC-Aircraft和Stanford Dogs上均取得了近期最好或不错的结果。