论文部分内容阅读
近年来,卷积神经网络(CNN)凭借其强大的特征学习能力在视觉识别领域取得重要进展,并受到学术界和工业界的广泛关注。首先,本文对CNN的结构进行如下两方面的创新研究:1)针对CNN全连接层对图像平移、旋转、缩放等变换比较敏感的问题,提出了一种混合模型——卷积词袋网络(Bo CW-Net)。它将Bo W模型嵌入CNN结构中并代替全连接层,通过端到端的方式学习特征、字典和分类器。为实现Bo CW-Net整个网络的有监督学习,提出基于方向相似度的Bo CW编码。同时,为充分利用中层特征和高层特征的鉴别性,将中层辅助分类器与高层分类器集成,形成主-辅集成分类器。实验结果表明:相比全连接层,Bo CW表示对各种变换具有更强的不变性;主-辅集成分类器能有效融合中层、高层特征,提高Bo CW-Net的识别性能;Bo CW-Net在CIFAR-10、CIFAR-100和MNIST数据库上均取得了改进的识别性能,最终分别获得4.88%、22.48%和0.21%的测试错误率。2)链式结构的CNN虽然能利用表征全局的高层特征解决一般的粗糙分类问题,但没有利用表征局部细节的中层特征解决精细分类问题。因此本文提出另外一种改进模型——卷积词袋-融合网络(Bo CW-Fusion Net)。它将中层、高层特征的Bo CW表示进行级联后再连接分类器,同样是通过端到端的有监督方式学习特征、字典和分类器。实验结果表明:Bo CW-Fusion Net相比链式CNN获得微小的改进性能,在CIFAR-10和CIFAR-100数据库上分别获得5.36%和24.82%的测试错误率。然后,利用改进的CNN模型(Bo CW-Net和Bo CW-Fusion Net)来解决实际应用问题,包括车型行人识别以及男女性别识别。车型行人数据包含6类车型(客车、轿车、面包车、货车、三轮车以及摩托车)和1类行人的图像,分类准确率分别为98.06%(Bo CW-Net)和97.94%(Bo CW-Fusion Net)。男女性别数据包含男女两类的人脸或头像照片,分类准确率分别为96.20%(Bo CW-Net)和94.90%(Bo CW-Fusion Net)。实际应用表明,改进的CNN模型均获得较好的识别性能。Bo CW-Net和Bo CW-Fusion Net的分类性能比较表明:无论公共数据库还是实际应用数据,中层、高层Bo CW表示的主-辅分类器集成方式相比级联方式能有效地融合中层和高层特征。最后,使用Bo CW-Net参与Kaggle大数据分析平台上的CIFAR-10物体识别竞赛和FER2013人脸表情识别竞赛,分别获得95.10%和70.10%的分类准确率,在排行榜上均为第二名。