基于GAN的不平衡数据增强算法及其应用研究

来源 :北京交通大学 | 被引量 : 9次 | 上传用户:Virgin1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习和数据挖掘的快速发展,越来越多的研究通过学习挖掘海量数据中的规律和特征,来实现更加准确的预测和推断。对海量数据进行自动分类能够大大的提高人们获取信息的效率。传统的分类方法是建立在类分布大致平衡的假设基础上,然而,现实生活中的很多数据都是不平衡的,例如癌症检测、网络攻击识别等,因此,不平衡数据增强算法的研究课题,近两年来受到越来越多的关注。现有的解决不平衡数据分类问题的主流方法有采样和集成学习相结合的方法,例如SMOTEBoost、RUSBoost、EUSBoost等算法。以上算法在初始化时给每个样本赋予相同的权重,然后分别训练分类器,根据误差率的反馈不断地调整样本的权重,最后得到表现较好的分类器。这些算法在某些特定情况下会过度依赖原始数据集。针对上述问题,本文中提出了用生成式对抗网络进行数据增强以解决不平衡数据分类的问题。本文主要贡献如下:(1)针对训练数据集样本不足的情况,提出了基于GAN的不平衡数据增强算法,利用该算法生成图像组成新的数据集,然后提取图像特征并分类,实验证明,生成的图像在样本多样性上有较好的效果,并且通过该方法进行数据增强后,数据的分类结果有了较好的提升。(2)针对生成的数据中部分图像质量不高,从而影响最终分类结果的情况,提出了基于GAN的集成学习的不平衡数据增强算法。利用ENN和Tomek Link进行数据选择,提出一个基于投票的集成学习分类器模型。这个分类器将多个单学习分类器结合起来,得到一个统一的集成学习分类器模型。通过这个方法,能够获得更准确、稳定、鲁棒性更好的分类结果。论文上述的两个研究通过实验验证都达到了预期的目的,在四个数据集上进行实验,实验结果表明基于GAN的不平衡数据增强算法的分类精度有明显的提高,同时还能有效地合成逼真的图像。
其他文献
近年来,行人再识别(Person Re-Identification,Person ReID)技术在小区安防、身份验证等应用中逐渐发挥出巨大的作用。而在现实世界中,行人再识别的准确度受诸多因素地影响,如环境光照、摄像头的分辨率、行人的行为、遮挡物等。为了提高准确度、克服这些挑战,目前主要采用基于深度学习的端到端模型进行行人再识别框架(简称端到端行人再识别模型)的搭建,并且在构建数据集、特征提取、分
葛水平自2004年起,以“井喷”的姿态,连续发表了《甩鞭》《地气》《天殇》《喊山》《陷入大漠的月亮》《黑脉》《守望》《连翘》等二十余部中篇小说,快速成长并屹立于当代文
本文通过大量资料收集和数据统计,分析了螺旋分选机在国内外的应用和发展阶段,并对三个阶段进行了深入研究。
在《国际商务单证》课程的教学过程中,需要考虑课程的设置目的,在完成教学目标的同时,要保证学生通过课堂教学消化、掌握相关的理论知识和操作要求,将理论知识应用于实践。
目的:探讨儿童哮喘急性发作期外周血单核细胞NF-κB活性与血清IL-4、IgE的水平变化及临床意义。方法:本研究设正常对照组52例,哮喘急性发作组84例,应用ELISA法检测血清IL-4、
国内外冷藏保温汽车发展概况1.国外冷藏保温汽车的发展概况欧美国家较早采用冷藏法来保持易腐食品的新鲜度,并逐步建立起食品冷藏链。20世纪初,就开始生产冷藏运输工具。第二
人才是一个国家经济和社会发展的重要战略资源,更是经济欠发达地区摆脱贫困、实现跨越式发展的关键。人才流动无论是在国家之间还是地区之间,都是加快人力资本积累进而促进经
本文阐述了加快中外管理思想史学科建设的意义,分析了中外管理思想史的学科特点和发展历程,揭示了中外管理思想史学科成长面临的三个突出问题:一是已有的《管理思想史》类著
以软脚红杆铁皮石斛为实验材料,参考《中国药典》(I部)标准,对其原球茎、丛生芽、瓶苗茎、炼苗茎和鲜条进行多糖和甘露糖含量的检测。结果表明:(1)软脚红杆铁皮石斛不同阶段
通过在榆林沙区进行长柄扁桃育苗、栽植试验,结果表明其适应沙区生长。该文概述了长柄扁桃的固沙作用及经济价值以及生长适应性,介绍了长柄扁桃快速育苗方法和沙地栽植长柄扁