基于集成学习的非平衡数据集分类问题的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：wheatmm

【摘要】

：

非平衡数据集分类是近年来机器学习和模式识别领域研究的热点问题之一。在实际应用中这种非平衡数据分类问题很常见，如卫星图像检测油井喷发、罕见病例的医疗诊断、网络入侵检

【作者】

：

郭文利

【出处】

：

西安电子科技大学

【发表日期】

：

2013年期

【关键词】

：

集成学习非平衡数据集核SMOTE AdaBoost 支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

非平衡数据集分类是近年来机器学习和模式识别领域研究的热点问题之一。在实际应用中这种非平衡数据分类问题很常见，如卫星图像检测油井喷发、罕见病例的医疗诊断、网络入侵检测、交易欺诈识别、恶意欠费识别等。因此，提高分类器在非平衡数据集上的分类性能和泛化能力具有重要价值和现实意义。由于非平衡数据集中类别数量上的严重倾斜和分布不均衡，基于传统的分类算法不太适合直接用来处理非平衡数据集。因此，人们在数据层面通过改变类分布状况和在算法层面通过改进算法提高分类性能两个角度进行改进，虽然分类性能得到了改进，但是正类的分类精度仍普遍较低。当前采用集成学习的方式对非平衡数据集进行研究，已经取得一定的成效，但是分类性能有待进一步提高。为解决上述问题，本文主要做了以下研究工作：受“最富信息”策略的启发，重点从关注错分的正类样本入手从数据层面和算法层面相结合的角度提出了集成学习改进方案一和方案二。其中方案一针对类别非平衡数据的分布特点先运用KSMOTE重抽样技术在特征空间中合成一定量的正类样本，在改善原始数据集的倾斜状况的基础上，采用上抽样KSMOTE和下抽样Bootstrap相结合的方式构建相对平衡的训练集。根据分类代价的不同分别赋予正负类样本不同的权值，然后在AdaBoost集成框架下以SVM作为弱分类器进行集成训练，从而达到更好的分类效果与泛化能力。通过在15个UCI数据集上将所提出的方案一与AdaBoostMI和ENSVM算法进行对比实验，证实了所提出的方案一在分类性能上优于AdaBoostMI和ENSVM。方案二则是以AdaBoost为主要框架，利用重抽样技术KSMOTE在特征空间合成分类困难的正类样本，根据分类代价的不同分别初始化正负类样本不同的权值，然后以SVM为弱分类器进行集成学习。在训练的过程中是在训练样本集的基础上应用KSMOTE重抽样技术在特征空间合成分类困难的正类样本集，而不是在训练初期应用KSMOTE改变原始非平衡数据集，而且通过在训练过程中每次循环时将前一步的误分类样本参与到当前训练步骤中，使得当前的SVM基分类器更加关注对前一轮分类器分类错误的正类样本进行分类，从而使得分类器在训练的过程中不断得到提升，最终得到分类性能较好的强分类器。在12个UCI数据集上将所提出的方案二与AdaBoostMI和ENSVM算法进行对比实验，证实了所提出的方案二的在分类性能上优于AdaBoostMI和ENSVM。但是方案一与方案二相比较而言，分类性能上没有较大差距。

其他文献

Mac机上的办公室助手

<正> Microsoft Office 98(Mac机版)其实已经上市一段时间了,笔者最近对它进行了安装和使用,感觉上它应该算是Mac机的应用软件中进步最快的一个新版本的Office 98在Word、Exc

期刊

办公集成化软件Office98MAC机

马拉松带动体育赛事促进城市文化建设

近年来，我国举办马拉松赛事的城市不断增加，马拉松在很多大中城市逐渐形成一种体育现象。马拉松赛对办赛城市的经济、政治、社会、环境，特别是对文化建设起到了独特的促进作用。

报纸

植物疫苗对秸秆浅池藕的影响试验

以天和牌001号植物疫苗应用于秸秆种植的浅池藕生产试验。试验结果表明,应用植物疫苗能明显促进秸秆栽培浅池藕的生长,莲藕产量高达70785.30kg/hm2,极显著高于不用秸秆的池藕

期刊

疫苗秸秆池藕试验Vaccine Straws Lotus Trial

大学生竞争态度与心理健康的相关研究

目的探讨在校大学生竞争态度与心理健康的相关关系，为促进学生良性竞争及心理健康提供依据。方法采用竞争态度量表（中文版）、症状自评量表SCL-90对216名在校大学生进行调查。结

期刊

过度竞争态度良性竞争态度心理健康

浅析民办高校学生就业能力测评结果对人才培养的反馈作用——以广州商学院为例

就业能力测评能够帮助测试者来判断其职业定位以及适合的职业类型。高校组织学生进行就业能力测评，能够帮助学校了解人才培养情况，为人才培养的改革完善提供反馈数据，激发就业与

期刊

高校就业能力人才培养

聊天“大哥大”——ICQ 4.0新感觉

作为传统的聊天工具ICQ近期发布了最新的4．0版本，新版本给我们带了很多新功能、新应用。下面废话少说，让我们马上打开ICQ 4．0去体验一下新感觉。

期刊

ICQ4.0网络聊天软件应用软件计算机网络

论高校公共教学资源管理的问题及对策

高校公共教学资源是高等学校人才培养体系的重要组成部分. 教学资源的建设和管理水平可以衡量一个高校综合实力和办学水平.针对现有高校公共资源管理和运行模式存在一些问题,

期刊

公共教学资源共享信息化外包

巧用chant,让英语教学“活”起来

小学英语的目标之一是培养学生学习英语的兴趣。如何才能保持学生的学习兴趣呢？我在教学中发现除了在课堂中设置情景，应用游戏外．Chant也是一种简单有效的方法。在实际教学中，“c

期刊

“chant”教学遵循的原则运用意义

趣味学消防

日前,浙江省长兴县举行'趣味学消防、假期保安全'主题趣味运动会,将消防安全知识融入运动项目。图为在长兴县水口乡中心幼儿园孩子参与障碍滚轮胎挑战游戏。

期刊

长兴县

浅谈中专护理专业新生入学思想教育

为了帮助我校中专护理新生尽快适应校园生活，顺利地实现角色转变，结合中专学生的特点，分别从适应性教育、专业思想教育、职业生涯规划教育及安全教育四个方面制订了新生入学教育

期刊

中专护理新生思想教育

基于集成学习的非平衡数据集分类问题的研究

与本文相关的学术论文