基于深度生成模型的数据增强方法研究

来源 :南京信息工程大学 | 被引量 : 5次 | 上传用户:zqfhj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,卷积神经网络应用于图像分类任务性能优越,多项研究证明卷积神经网络在大规模带有标签的数据集训练下,训练后网络能够取得高精度的识别率或分类效果。然而在某些特殊领域,例如浓雾天气形势图基准数据集,由于多方面因素制约,累积的数据集中样本远小于一般模型常规训练集规模,因此导致训练后的网络出现过拟合现象。为了降低因训练集样本数量过少对训练造成的不良影响,各种扩展数据集样本的数据增强算法被提出并被广泛应用,将数据增强算法应用于小数据集不仅能够提升数据集样本的数量也能提升样本的多样性。本文针对数据集中样本数不足的情况,提出了二种基于深度生成模型的数据增强算法:(1)基于高斯混合模型条件生成式对抗网络(Gaussian Mixture Model Conditional Generative Adversarial Networks,GMM-CGAN)模型,该模型针对生成式对抗式网络(Generative Adversarial Networks GAN)因其假设隐变量z的分布为单一高斯分布,导致先验分布过于单一,难以学习并表示复杂分布等问题,提出利用高斯混合模型替代单一高斯模型提升CGAN的先验分布,达到增强小数据集样本数及其样本多样性目的。(2)多隐空间卷积变分自编码器(Multiple Latent Space Convolutional Variational Auto-Encoder,MLSCVAE)模型,该模型针对变分自编码器(Variational Auto-Encoder,VAE)在学习特征不同的数据时共用一个低维分布隐空间,导致生成的图像类别特征差异模糊及多样性低等问题,提出将VAE的隐空间按照数据特征差异性进行划分,实现多隐空间对不同特征的独立学习生成,实现提升样本生成的多样性的目的。基于浓雾天气形势图、MNIST及CIFAR 10等三个数据集的部分数据构造小数据集,利用准确率和过拟合比等指标对GMM-CGAN及MLSCVAE模型进行评估,实验结果显示经GMM-CGAN和MLSCVAE扩展的数据集训练出网络分类的准确率分别为87.5%、86.9%、84.3%和86.3%、87.7%、85.4%,过拟合比分别为1.25、1.13、1.28和1.15、1.18、1.25,证明所提GMM-CGAN和MLSCVAE模型与仿射变换、GAN、VAE等作为数据增强算法相比改进是显著的。
其他文献
试验设计的研究正随着工农业生产的发展、医疗卫生行业的进步以及海量信息数据的分析而变得越来越深入,并且随着计算机技术的进一步提升,计算机试验也在蓬勃发展。相较于传统
通过Pro/E建立采煤机截割部双电机仿真模型,并应用ADAMS分别对双电机空载启动和阶跃载荷状态下动态特性进行了研究。结果表明所建立模型能够充分反映双电机系统运行情况,双电
根据榆树市玉皇庙水库洪水特性,分析了频率计算法、由暴雨推求洪水和地区综合法推求洪水3种设计洪水的计算方法,对3种方法的计算结果进行合理性比较,得出采用暴雨推算小面积
氮化铝薄膜具备其它Ⅲ-Ⅴ族金属化合物薄膜所不具备的很多优良性能。AIN薄膜在发光器件与敏感器件,高功率与高温电子器件、纳米技术、微电子技术、声学技术、多层膜复合材料
在我国进行的第2次土壤普查工作当中可以发现,土壤剖面的碳储存量和气温、降水量之间的关系,他们之间的关系在不同的温度下有不同的表现,在年平均温度小于等于10℃时,土壤当中的邮寄弹出存量和温度呈现出一种反比的关系,在年平均温度在10~20℃之间的时候,和降水呈现一个正比的关系,若在年平均大于20℃的地区,土壤当中的碳储存量和温度与降水之间的关系就很小了。在中国,由于温度和降水成正比,二者之间的关联性很