论文部分内容阅读
卷积神经网络(CNN)作为目前计算机视觉领域中的主流模型,在图像分类、图像分割以及超分辨等领域得到成功应用。卷积网络通常采用全连接层或全局平均池化层聚合卷积层输出的特征图,然而这些方法并不能充分建模特征图中所蕴含的丰富信息。为进一步增强网络的表达能力,通过在CNN架构中设计并嵌入建模能力更强的结构层对特征图进行聚合,成为一种新的思路。其中,二阶建模凭借自身建模能力强的优越性,受到学者们的广泛关注。本文重点研究如何在CNN中设计嵌入二阶建模结构层,并针对现有二阶建模方法的不足进行改进,提出了三种基于二阶建模的卷积网络模型。双线性卷积网络(B-CNN)通过对特征图计算外积,建模了特征图分布的二阶统计信息。然而,外积聚合仅能捕捉特征图中通道间的线性关系,无法建模通道间的非线性关系,不能充分利用特征图所蕴含的有效信息。针对该问题,本文首先提出了一种核化双线性卷积网络。该网络采用核函数的方式建模通道间的非线性关系,充分利用特征图中的有效信息,从而得到更具判别力的图像表达。本文提出了三种核化双线性聚合的方式,并给出反向传播的梯度求导公式,以嵌入到CNN架构中进行端到端的训练。利用注意力机制能够有效地对特征图中信息进行校正,增强网络的表达能力。本文提出了一种基于二阶建模的通道注意力模块,该模块通过计算通道间的相关性,并作为权重对特征图中的通道进行加权求和,从而更好地对特征图的通道信息进行校正,提升网络的分类性能。不同于SENet中通道注意力模块仅利用一阶信息,本文方法更有效地建模了通道间的相互关系。同时,相较于非局部卷积网络利用特征间的相关性作为权重,本文提出的注意力模块更适用于图像分类任务。受到端到端的局部聚合描述子网络(NetVLAD)的启发,本文提出了一种基于特征空间的局部二阶聚合网络(LSOP)。LSOP网络首先利用聚类的方式对特征空间进行局部划分,并在每个聚类空间内部进行二阶建模,从而细致地刻画特征分布的局部二阶统计信息。该方法解决了目前卷积网络中,二阶建模仅能获取特征分布的全局二阶统计信息的问题。同时,针对二阶建模维度高的不足,该方法进一步采用基于张量速写的降维措施,显著降低了图像表达的维度。本文对提出的三种方法进行了详细地实验评估。实验结果表明本文方法在多个图像分类数据库上均优于相关方法,其中核化双线性卷积网络更是达到了领先的性能。LSOP网络则不仅取得了具有竞争力的性能表现,其图像表达维度也显著低于相关方法。