论文部分内容阅读
近年来,卷积神经网络应用于图像分类任务性能优越,多项研究证明卷积神经网络在大规模带有标签的数据集训练下,训练后网络能够取得高精度的识别率或分类效果。然而在某些特殊领域,例如浓雾天气形势图基准数据集,由于多方面因素制约,累积的数据集中样本远小于一般模型常规训练集规模,因此导致训练后的网络出现过拟合现象。为了降低因训练集样本数量过少对训练造成的不良影响,各种扩展数据集样本的数据增强算法被提出并被广泛应用,将数据增强算法应用于小数据集不仅能够提升数据集样本的数量也能提升样本的多样性。本文针对数据集中样本数不足的情况,提出了二种基于深度生成模型的数据增强算法:(1)基于高斯混合模型条件生成式对抗网络(Gaussian Mixture Model Conditional Generative Adversarial Networks,GMM-CGAN)模型,该模型针对生成式对抗式网络(Generative Adversarial Networks GAN)因其假设隐变量z的分布为单一高斯分布,导致先验分布过于单一,难以学习并表示复杂分布等问题,提出利用高斯混合模型替代单一高斯模型提升CGAN的先验分布,达到增强小数据集样本数及其样本多样性目的。(2)多隐空间卷积变分自编码器(Multiple Latent Space Convolutional Variational Auto-Encoder,MLSCVAE)模型,该模型针对变分自编码器(Variational Auto-Encoder,VAE)在学习特征不同的数据时共用一个低维分布隐空间,导致生成的图像类别特征差异模糊及多样性低等问题,提出将VAE的隐空间按照数据特征差异性进行划分,实现多隐空间对不同特征的独立学习生成,实现提升样本生成的多样性的目的。基于浓雾天气形势图、MNIST及CIFAR 10等三个数据集的部分数据构造小数据集,利用准确率和过拟合比等指标对GMM-CGAN及MLSCVAE模型进行评估,实验结果显示经GMM-CGAN和MLSCVAE扩展的数据集训练出网络分类的准确率分别为87.5%、86.9%、84.3%和86.3%、87.7%、85.4%,过拟合比分别为1.25、1.13、1.28和1.15、1.18、1.25,证明所提GMM-CGAN和MLSCVAE模型与仿射变换、GAN、VAE等作为数据增强算法相比改进是显著的。