论文部分内容阅读
深度学习方法逐渐兴起并得到了大规模的发展,机器能够做到很好的理解和运用所提供给它的数据。其中有些现实生活中的难以很好得到处理问题,通过深度学习的相关方法得以实现和解决。本论文利用深度学习的方法去解决细粒度分类的问题。细粒度图像分类是更进一步的分类,也就是区分子类。对比普通图像分类,它类间间距小,类内间距大,且细粒度图像分类任务普遍存在总体数据量偏少的问题。本篇论文通过获取更好的表征来实现细粒度图像分类任务,主要利用两种方式去获取可区分特征以及对该表征进行增强。一是从图像内部利用注意力模块进行表征的提取和表示,二是外部信息引入指导表征学习。第一种方法是从图像内部利用注意力模块进行表征的提取和表示。该模型通过设计的损失函数去诱导不同的注意力模块显式的去提取可区分特征和混淆特征,然后使原始特征加上可区分特征,减去混淆特征的方式来达到增强可区分特征和削弱混淆特征的目的。通过特征加减后得到的表征就是用于分类的表征。第二种方法是通过外部引入信息指导表征学习。我们引入了标签描述信息,图片难以区分的部位或关键性区域,文字有会有详细的介绍和相关的描述。文本信息和图像信息是互补的两类信息,通过标签描述的文本信息,能够诱导图像表征的提取。该方法通过CNN获取图像特征,通过GCN获取标签描述特征,将分类任务转换为匹配任务,计算每张图像特征和每类标签描述特征的相似度,使同种标签下图像特征与标签描述特征的相似度越高越好,反之,越低越好。本篇论文第一种方法,分别在CUB-200-2011,Stanford Cars和FGVC Aircraft这三个数据集上取得了 88.1%,94.9%和93.6%的准确率。本篇论文第二种方法,分别在CUB-200-2011和Stanford Dogs两个数据集上取得了 90.2%和92.3%的准确率。这些实验结果表明了本工作方法的可行性。