论文部分内容阅读
图像分类技术是计算机视觉领域中一个非常重要且极具挑战的研究课题,是解决图片搜索、图像识别问题的关键技术。其核心是指对于已经给定的图像,通过识别它所包含的信息来判断其所属类别,在已有固定分类标签的数据集上,对输入的图像从数据集中找出一个正确的分类标签,并分配给该输入图像,从而达到分类的目的。随着互联网科技与需求的不断发展,信息数据激增,传统分类方法已经无法满足海量数据的需求。深度学习的出现及GPU硬件的发展,使得图像分类技术能够向自主、智能的方向发展。虽然深度学习的训练过程整合了特征提取,替代了人工提取特征的过程,且支持大型数据集下的运算和性能评估。但由于目前所需分类的图像不仅具有信息量大、内容表达丰富的特点,在类别种类及细致程度上也有了明显的增加,这给图像分类技术带来了新的困难。而且,图像在分类上可分为类间图像和类内图像,类内的相似程度以及差异性已经成为了图像分类的新难点。此外,面对已有固定分类标签的数据集,深度学习训练出的网络框架可以很好地对图片进行分类,但面对数据集中没有标签的图片或数据集中本身不存在的图片类别进行分类时,它便没有了很好的泛化能力,这也是目前图像分类领域中亟需解决的一个问题。针对上述问题,本文从场景图像分类、图像精细化分类以及图像分类模型泛化三个方面展开,主要内容如下:(1)针对主流的图像分类算法进行了全面的调研和分析,不仅对相关研究的发展和技术进行了深度的总结,而且从基于特征的分类方法、基于语义的分类方法和基于学习的分类方法进行了深入的阐述和分析,并对图像分类算法的发展趋势进行了预测和展望。(2)针对场景图像分类中标签模糊和计算成本的问题,提出了一种结合Inception CNN(I-CNN)和 Object Detection CNN(OD-CNN)的 Joint-CNN 方法。它利用OD-CNN计算图像中各个对象的概率并生成对应的向量。与此同时,通过I-CNN修改了批量标准化BN-Inception模型以结合OD-CNN对图像进行分类。(3)针对类内图像精细化分类难的问题,提出了一种基于多显著性区域特征提取的迭代神经网络方法。该方法利用显著性区域特征提取方法对图像中关键区域的特征进行提取,并将提取的结果输入迭代分类网络中进行处理,最后输出精细化图像的识别结果。(4)针对图像分类模型泛化需求的问题,提出了基于零次学习(Zero-Shot Learning,简称ZSL)的分类模型泛化技术。该方法基于迭代网络对图像进行多尺度的特征提取,并基于语义一致性约束(Semantically Consistent Regularization Part,简称SCoRe-Part)网络结构完成了对视觉语义空间的投影,有效地解决了领域漂移问题,提高了分类模型的泛化能力。本文的研究提升了图像分类的效果与实用性,使该技术具有更好的发展和应用。通过对其方法的大量调研与分析,本文在对图像分类方法综述的基础上分别针对场景图像分类、图像精细化分类和分类模型泛化展开研究,并在相关数据集上取得了理想的实验效果。