论文部分内容阅读
人类所获取的外界信息中有80%是来自视觉的,而且通过视觉获取到的信息是最丰富也是最复杂的。我们人能够很好的看清楚并理解视觉所捕获到的信息,但是如何让计算机看懂并理解图像信息却是一件非常困难的工作。图像分类是让计算机理解世界的基础,也是多媒体技术研究的一个重要方向。而图像分类中的多属性图像分类则可认为是多媒体技术中一个基本而富有挑战性的研究领域。多属性图像分类工作有助于机器从多个层面来更详细的理解图像,从而为计算机理解世界奠定更坚实的基础。 对于多属性图像分类任务,本文研究了如何利用图像多属性标签之间语义关系的嵌入和卷积神经网络模型不同网络层特征的融合来提高模型的分类准确率。文中提出了两种用于图像多属性分类的卷积神经网络模型,分别为:1)局部非对称的多任务卷积神经网络模型(PAMT-CNN),2)融合多层特征的互影响卷积神经网络模型(ME-DAG-CNN)。文中将两种模型分别应用于多属性图像的分类工作中,并在两个数据集上验证所提模型的有效性。 1.与传统的多属性图像分类工作不同的是,局部非对称的多任务卷积神经网络模型在多属性图像特征的提取过程中考虑了图像多属性语义之间的相互影响,以及图像多属性语义相互嵌入对学习图像特征表示的影响。卷积网络低层更多关注的是图像边缘、颜色等共通的特征表示,而高层则关注的是具有类别倾向的区分性特征。在此基础上局部非对称的多任务卷积神经网络模型通过低层网络参数共享实现图像多属性标签语义的相互嵌入,从而提取出共通的低层特征表示。之后通过在相同传统卷积神经网络模型上表现出更好分类性能的图像属性语义在模型中间层对其他图像属性分类任务进行指导,从而提高模型在图像各属性分类任务上的分类正确率。 2.融合多层特征的互影响卷积神经网络模型是在局部非对称的多任务卷积神经网络模型的基础上改进而来的。局部非对称的多任务卷积神经网络模型在设计时考虑了图像多属性标签语义在特征提取过程中的指导作用,但并未考虑融合多层网络特征对模型分类性能的影响。因此,我们在设计融合多层特征的互影响卷积神经网络模型时同时考虑融合多层网络特征和多属性标签语义相互嵌入对模型分类性能的影响。文章通过实验验证了融合多层特征的互影响卷积神经网络模型在提高多属性图像分类任务正确率上的有效性。