基于生成对抗网络的非均衡数据分类研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yy20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能兴起,深度学习是目前人工智能的主要研究领域之一。深度学习是一种数据驱动学习方法,对数据的数量和质量的要求都很高。在众多应用领域中,很多数据需求都可以满足,但是在部分领域中,例如金融风险,故障检测等方面,正常数据量和异常数据量是非常不对等的。数据集中,不同类别的样本量之间比例极度不平衡的数据集被称为非均衡数据集。由于非均衡数据集中不同类别样本所含信息量不同,训练过程中重要程度不同,使用传统的分类器去分类非均衡数据集的难度较大,而且普通的评估标准难以正确地评价分类器。本文提出一种基于生成对抗网络(GAN)的非均衡数据集分类方法,生成对抗网络由生成器和判别器组成,生成器的功能是尽量拟合输入真实数据的分布,判别器则是尽量去判断样本是来自生成器还是真实数据,两者之间相互竞争共同提升,直到达到纳什均衡。使用GAN的强大生成能力可以扩增非均衡数据集中少数类样本。本文首先介绍了传统分类算法和目前常用的非均衡数据分类算法以及分类效果评估标准。介绍了一种基于随机过采样算法的非均衡数据集数据分类方法。本文提出了一种基于WGAN(Wasserstein GAN)的非均衡数据集分类,使用WGAN稳定的生成能力解决了合成少数类样本多样性和稳定性不足的问题。WGAN对原始GAN的损失函数以及网络结构做了适当修改使得在训练方面更加稳定,使用WGAN的稳定生成能力去合成大量少数类样本,使得两类样本达到均衡化,使用均衡的数据集去训练WGAN的判别器和逻辑回归模型,分别使用WGAN的判别器和逻辑回归对测试集进行分类并对比。最后使用信用卡欺诈数据集进行实验,使用WGAN对数据进行均衡化的召回率达到了88%,而使用随机过采样后分类召回率仅达到85%,直接使用原始数据召回率仅达到了52%。由于有些非均衡数据集中少数类样本过少,限制了生成器的生成效果,本文提出了一种基于CycleGAN的非均衡数据集分类,利用CycleGAN域间转换能力解决了少数类样本过少,生成效果局限的问题。CycleGAN利用两个生成器和两个判别器对两类样本进行域间转换,利用CycleGAN的非成对的域间转换能力把多数类样本转换成少数类样本,使得两类样本达到均衡,再训练VGG网络用于分类,并和使用传统数据增强方法进行对比。最后使用人脸数据集进行实验,并证明了使用CycleGAN进行数据增强的有效性。本文主要使用了GAN的生成能力对非均衡数据集进行数据增强,再使用传统的分类器进行分类,所以后续工作可以利用判别器的强大判别能力对均衡化后的数据集进行分类。
其他文献
高中生物新课程改革是转变学生学习生物课程方式的一个转折点。高中生物复习必须寓新课程理念于复习教学之中,充分激发学生的思考潜能,努力提高学生的思维能力,培养学生良好
互联网技术的不断进步为社会发展步入注重个人或群体参与、表达与分享的Web2.0时代提供有力支撑。与Web1.0时代相比,以用户为主导、利用Web平台技术进行内容生产与创造是Web2
氢能源是化石燃料的一个极具吸引力的替代品,可以解决很多环境问题和能源短缺问题。在众多不同的纳米材料中,TiO2由于其优异的稳定性、耐光腐蚀性、无毒性、成本低廉、高催化
【目的】探讨不同种植密度及钾肥施用量对龙薯14号产量的影响,为该品种的高产栽培提供参考依据。【方法】采用双因素随机区组设计,分析不同种植密度(4.20、4.95、5.70、6.45万
一、母题概述 本文涉及的七部史诗作品是印度的《罗摩衍那》和《摩诃婆罗多》、希腊的《伊利亚特》和《奥德修记》、中国藏族的《格萨尔王传》、蒙古族的《江格尔》和柯尔克
权利的法定化不等于权利的现实化,分析法定权利到现实权利的转化过程需要将其嵌入整体的社会结构与文化语境中才能得以全面的阐释。嵌入性理论提供了可供分析的视角和工具,法
随着售电侧的逐步开发以及用电大数据时代的到来,短期负荷预测更加复杂,必须综合考虑实时电价、用户历史用电行为以及预测模型的精度和时间复杂度。在分析各种短期负荷影响因
随着“十三五”规划的正式启航,中国的社会和经济在未来的几年内必然会获得突破性的增长,人民的生活水平和消费水平也会随之相应提高,这将会极大地促进葡萄酒需求量的增长。
目的探讨系统性红斑狼疮(SLE)患者认知功能障碍情况及危险因素分析。方法选取自2015年1月至2019年1月潍坊医学院附属医院确诊为系统性红斑狼疮65例患者,男12例,女53例,平均年
由高分子聚合物基体和纳米颗粒组成的导电复合材料因其优良的力学,热学及电学特性被广泛应用于航空航天,电子,汽车及医疗等领域。碳纳米管(CNT)具有高长径比,高电子迁移率和