论文部分内容阅读
在传统计算机视觉研究中,图像分析的目标对象隶属类别通常是诸如“狗”、“车”和“鸟”等传统意义上的类别分类。而在许多实际应用中,图像对象往往来自某一传统类别下较细粒度级别的不同子类类别,如不同种类的“狗”:“哈士奇”、“阿拉斯加”、“比熊”等(或不同种类的“车”:“奥迪”、“宝马”、“奔驰”等;或不同种类的“鸟”:“灰海燕”、“绿头鸭”“信天翁”等)。细粒度级别图像分析是针对此类问题的一个计算机视觉领域研究方向,且是计算机视觉领域的热门研究课题,其目标是对上述细粒度级别图像中的物体子类进行定位、识别及检索等视觉分析任务的研究,具有真实场景下广泛的应用价值。然而因细粒度级别子类别间较小的类间差异和较大的类内差异,使其区别于传统图像分析问题成为更具挑战的研究课题。本文基于深度学习网络模型探索了细粒度级别图像分析问题,主要工作包括:1.基于选择性卷积特征描述子融合的细粒度级别图像检索:以往图像检索任务通常针对地标性建筑或通用类别物体,未考虑在细粒度类别场景下如何有效进行细粒度级别图像检索。提出首个基于深度学习模型的细粒度级别图像检索方法SCDA,通过使用开源的深度卷积神经网络预训练分类模型可做到无监督式的细粒度级别物体定位,进而根据定位结果筛选出有价值的卷积特征描述子并去除背景或噪声对应的卷积描述子的影响,之后将保留下的卷积描述子融合,最终以最近邻算法完成检索任务。实验结果显示出SCDA方法比现有传统图像检索方法有更优检索精度,同时证实了卷积描述子筛选机制的有效性。2.基于卷积特征描述子变换的物体协同定位:为进一步提高细粒度级别物体无监督式定位精度,与SCDA方法中仅考虑单张图像信息不同,我们指出应使用图像集合中图像之间的协同信息进行物体协同定位。提出DDT方法,同样利用预训练模型抽取卷积特征描述子,通过提出的特征变换算法衡量描述子之间的相关性进而将图像集合中的共同物体协同式定位出来。实验结果显示出DDT方法比现有其他物体协同定位方法具有更优的定位精度。3.基于卷积特征描述子筛选和融合的细粒度级别图像识别:以往细粒度级别图像识别方法均未考虑在识别过程中度量卷积特征描述子的重要程度,即筛选有价值的卷积特征描述子,以及去除无用甚至有害的卷积描述子。提出Mask-CNN方法,通过学习得到的物体和部件级别掩码可将卷积特征描述子进行合理筛选和权重分配,最终将全局的物体级别特征表示和局部的部件级别(头和躯干)特征表示级联完成识别过程。实验结果证实了Mask-CNN方法卷积描述子筛选机制的有效性以及物体部件定位的准确性。4.基于少量训练样本的细粒度级别图像识别:以往细粒度级别图像识别的深度学习方法均须大量数据驱动,当数据量不足时难以取得理想结果,有时甚至无法训练。首次提出和研究了细粒度级别图像识别的少量样本学习任务,并提出PCM方法,通过元学习方式训练从少量训练样本到其对应的类别分类器的映射函数,利用该映射函数可生成类别分类器并泛化到真实测试环境下的少量训练样本条件的细粒度级别图像识别任务。实验结果显示出PCM方法在少量训练样本条件下相对现有方法具有更优的细粒度级别图像识别精度。