SMOTE算法的改进与应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:qiuyeshusheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际生活中总会遇到大量的不平衡数据问题,但是这类数据集的分类效果往往不太理想。如何能够提高不平衡数据集的分类效果是学者们的研究热门。本文对不平衡数据集的分类算法做了研究,首先,介绍了几种单分类器和几种集成学习分类器的算法思想及流程。其次,介绍并分析了SMOTE算法的优缺点。作为经典的过采样算法,SMOTE算法能有效地避免数据过拟合问题,从而提高模型的泛化能力。但SMOTE算法没有考虑到数据的分布情况以及多数类对少数类的影响,而且也没有考虑到样本点的特异性。现有的一些改进算法从某些方面对SMOTE算法进行了改进,一定程度上提高了分类效率,但也存在一些其它问题。本文详细分析了SMOTE及其改进算法的优劣,为了进一步提高不平衡数据集的分类效果,提出了一种基于欧氏距离比的DC-SMOTE算法。DC-SMOTE算法不仅能避免过拟合问题,而且着重考虑了数据样本点的分布情况,针对处在不同位置的样本点赋予不同的系数取值,从而特异性地进行插值操作。相比于SMOTE算法,本算法提高了合成的新样本点的质量,在一定程度上改善了SMOTE算法的劣势。最后,本文选用了UCI的5个不平衡数据集和公司项目的经纪人模型真实数据集进行了实验,选用了4种经典单分类器算法和4种经典集成学习算法对SMOTE、Borderline-SMOTE、Kmeans-SMOTE以及DC-SMOTE算法进行对比实验,分别从F值、G-mean、AUC值等指标进行分析。实验证明本文提出的DC-SMOTE算法能有效地提高分类算法模型的分类能力,具有有效性。同时,将算法应用于公司经纪人模型项目,分类也达到了不错的效果,并最终在公司成功上线,这也证明了本文的研究具有较高的研究意义和实用价值。
其他文献
从古至今,在对色彩的表达方式上,色彩不仅仅单纯的作为它本身而存在,更多的是对孕育色彩的自然环境、人文历史、意志情怀的表现。现阶段中国传统色彩已经形成了以中国传统意识形态为主,以多元化的技术手段为辅的发展模式,更加有效的对中国传统文化予以表达。本文借助了文献法、调查法、比较分析法等多种分析方法以拓展探究中国传统色彩中所包含的“情”与“境”相关理论知识,以中国传统农耕文化中的二十四节气为主题依托,设计
引言/目的猪对人流感病毒和禽流感病毒均易感,被认为是流感病毒的"混合器",在流感生态中具有重要的中间宿主作用。2009年暴发的甲型H1N1大流行流感病毒(pdm/09H1N1)再次表明
会议
化工园区废水中含有大量有毒有害难降解污染物,其中的1,2-二氯乙烷常因处置不当逃逸到环境之中,对生态和人体健康造成重大危害。本文基于某化工园区污水厂治理高浓度1,2-二氯乙烷废水的实际需求,选取生物处理技术和芬顿氧化技术对其展开降解研究,具有重要的工业应用前景。本文采用经驯化的污泥处理目标废水,出水1,2-二氯乙烷浓度<0.02mg/L,降解率>99.9%。污泥驯化使菌群结构发生改变,
学位
2018年4月,人民银行、银保监会、证监会和外管局四家金融监管机构联合发布了《关于规范金融机构资产管理业务的指导意见》,新规旨在统一全国资管市场管理标准,首当其冲的就是银行理财类资管产品。资产托管业务作为资管产品构成角色的铁三角之一,银行理财产品的转型工作势必会给托管行业造成冲击。银行理财在国内的发展时间只有15年,但是已经稳居着国内资管市场第一的份额占比。银行理财依托大型商业银行,获得了十分广泛
以化石燃料燃烧为首要原因的温室效应仍然严重,各国都在寻求抑制二氧化碳排放和促进二氧化碳转化的新方式方法。近年来,我国对二甲苯(PX)的进口依存度依然较高,国内对PX的需求在短期内依然无法完成自给。同时,随着国家对机动车排放标准愈加严苛,致使结余出大量的纯苯,且短期内利用苯生产甲苯、二甲苯仍具有一定的经济效益。本课题立足于国家新时期方针政策与世界环境保护层面,从对苯与二氧化碳烷基化条件的研究角度出发
葡萄糖转运蛋白(glucose transporters,Gluts)负责血糖跨膜转运,对鱼类糖利用具有重要影响。本实验以虎龙斑为实验对象,用含有18%玉米淀粉的饲料将实验鱼喂养至50-70g,最后2天投喂高糖饲料(35.47%玉米淀粉)。养殖实验结束前饥饿48h,再进行激素注射实验,重点研究腹腔注射胰岛素、胰高血糖素和甲状腺激素(T3)对虎龙斑血糖水平及肝脏、肌肉、脂肪和脑组织中Gluts表达的
极地地区独特的环境条件,使大部分生物无法正常生存,但极地同时也是一个微生物资源非常丰富的宝库。很多研究证明了极地地区微生物的多样性,其中大多数微生物属于嗜冷、耐冷微生物。但丰富的极地微生物资源并未得到很好的开发与利用,由于生长环境的特殊性,这些微生物在人工规模化培养方面遇到了诸多瓶颈,比如低温、高盐、高压等特殊培养环境。本课题研究对象Geomyces sp.WNF-15A是一株分离自南极的适冷丝状
进入本世纪以来,随着我国能源结构不断调整,新能源装机容量逐年提升,未来大容量火电机组的运行工况将更为复杂。汽轮发电机组作为燃煤火力发电厂重要设备之一,其安全、可靠运行不仅关系到发电厂能否正常向电网输送电能,更关系到电网有功、无功的平衡以及电力系统的稳定。因此,加强对汽轮发电机组故障的在线监测与诊断就显得尤为重要。本文以作者长期在火力发电厂的工作经验为基础,结合工程实际案例对汽轮发电机组状态监测及故
图谱理论在图论研究中占据了非常重要的地位,主要应用在计算机科学、统计力学、量子化学、通信网络等领域。图谱理论主要通过距离矩阵D(G)、邻接矩阵A(G)、拉普拉斯矩阵L(G)等代数表示,巧妙应用矩阵论、线性代数等理论及技巧来研究图的拓扑性质及其确定性,其在代数图论、组合矩阵论以及代数组合论中是引起众多学者共同关注的课题,极大促进并丰富了图论与组合学的研究内容。本文主要研究图的距离谱问题。首先介绍了图
2014年下半年,国际油价打破持续多年的走高态势,开始暴跌。2017年初,OPEC实行限产政策,油价恢复了上升态势。国际油价的波动主要通过成品油价格进行传导,并对国民经济造成冲