论文部分内容阅读
人类接受的大量信息都是通过视觉系统加工处理而产生的。图像是一种重要的视觉信息,具有形象、直观、内容丰富等特点,是视觉媒体信息中重要的一种。对图像内容的理解与感知已经成为当前人工智能领域一个极富挑战的课题。如何对海量的图像数据进行有效的组织、存储和检索,已经成为近年来重要的研究课题[1,2,3]。本文中利用深度学习与卷积神经网络等技术,通过对图像特征的抽取、表征以及标签内容学习,建立图像感知分类模型让计算机对图像内容感知,实现对图像的自动分类。 近年来,图像分类技术研究取得很大的进展,但是由于传统的底层视觉特征提取方法与分类模型分离的技术结构的局限,图像感知分类仍然存在许多亟待解决的问题。深度学习近年来在多个领域取得突破性的研究进展,对于将深度学习技术应用到图像感知的研究也成为一个重要的方向。卷积神经网络由于独特的特性,在图像、语音等领域[4,5]得到广泛的应用并且取得不错的研究进展。卷积神经网络具有局部连接、权值共享,拥有对局部空间特征采样的能力,对平移和放缩拥有不变性,在图像等领域得到广泛的应用。由于神经网络模型本身结构复杂,对于特征的学习以及图像数据的感知分类仍然有许多问题需要解决,因此它还是机器学习与图像感知分类领域的一个研究热点。 本文以深度卷积神经网络模型与理论为研究基础,着重研究卷积神经网络模型在图像感知分类中的应用。研究工作围绕特征学习与表示、深度卷积神经网络的结构设计以及特征交互等工作展开。取得的主要成果有: 1.提出基于卷积特征交互的卷积神经网络层。该神经网络层通过因式分解技术实现了在传统卷积神经网络基础上的特征交互过程。挖掘卷积特征间的隐含关系,对原始图像特征进行更高维的表征。通过对卷积特征的交互学习,加强了特征间的学习与理解。通过对图像数据的分类实验,验证了本文提出的基于卷积特征交互的卷积神经网络层在构建神经网络模型在图像感知分类中的有效性。 2.提出多尺寸图像输入的卷积神经网络模型结构。该结构支持单模型中接收多个尺寸的图像特征输入,通过不同的卷积特征提取过程,挖掘多尺寸下不同的特征表示,然后将各个尺寸下的特征表示聚合继续学习,最后用于图像的感知分类。该结构能够结合多个尺寸特征的特点可以作为正则应用在深度学习图像感知分类模型中。实验表明了这种多尺寸输入结构的模型在图像感知分类中的有效性。 3.提出多尺寸多损失的卷积神经网络模型。该模型结构在多尺寸输入的基础上,在深度模型中引入多损失。首先在深度模型中引入多个损失函数可以加快学习的速率,避免梯度消失、梯度弥散等问题的出现;其次,针对不同尺寸的图像特征输入加入损失函数进行学习,加强局部的有监督的特征学习。