不均衡问题中的特征选择新算法:Im-IG

来源 :山东大学学报(工学版) | 被引量 : 0次 | 上传用户：huoxingtan22

【摘要】

：

机器学习中各类别样本数目不等是普遍存在且备受关注的不均衡问题。广泛用于特征选择的信息增益IG(information gain)算法,在这类不均衡问题中的表现却极少被研究。本文在讨

【作者】

：

尤鸣宇陈燕李国正

【机构】

：

同济大学电子与信息工程学院,

【出处】

：

山东大学学报(工学版)

【发表日期】

：

2010年05期

【关键词】

：

特征选择 Im-IG 均衡问题机器学习数据集信息增益样本数目分类正确率分类器均衡度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

机器学习中各类别样本数目不等是普遍存在且备受关注的不均衡问题。广泛用于特征选择的信息增益IG(information gain)算法,在这类不均衡问题中的表现却极少被研究。本文在讨论IG算法在不同均衡度数据集上性能的基础上,提出了一种新的解决不均衡问题的特征选择算法Im-IG(imbalanced-information gain)。Im-IG通过提高小类分布在信息熵计算中的权重,优先选入有利于小类正确分离的特征。在提升整体分类性能的同时,着眼于提高小类的正确率。在多个不均衡数据集上的实验结果表明,Im-IG算法能较好地解决IG算法在不均衡问题中的不适应性,是一种有效的不均衡问题特征选择算法。 The number of each category in machine learning ranged from ubiquitous to the imbalanced issue that received much attention. The widely used information gain algorithm for feature selection has rarely been studied in this kind of unbalanced problem. In this paper, based on the discussion of the performance of IG algorithms on different equalization datasets, a new feature selection algorithm Im-IG (imbalanced-information gain) is proposed to solve the unbalanced problem. Im-IG, by increasing the weight of sub-class distribution in the information entropy calculation, preferentially selects the features that are conducive to the correct separation of sub-classes. While improving overall classification performance, we should focus on improving the accuracy of subcategories. Experimental results on a number of unbalanced datasets show that Im-IG algorithm can better solve the IG algorithm’s inequality in the unbalanced problem and is an effective feature selection algorithm for unbalanced data.

其他文献

并行工程在XG公司产品研发中的应用

随着中国逐渐成长为世界上的制造大国,中国企业正面临着国内和国外日趋激烈的竞争。竞争使人们更加重视新产品的研发工作,而并行工程又使人们将注意力集中到产品开发过程的改

学位

并行工程产品研发

大地深处的那些事儿

神秘的谷地那是怎样的一个所在?如果可以把浮在天空的云层拨开,把萦绕在江河与山峦上的烟雾撩开,那么,我们就可以将气象万千的大地的面目看得清楚一点.但我又始终认为,以俯瞰

好想有位哥哥

我有两个姐姐和两个妹妹,姐妹五人——人称“五朵金花”.家里却始终缺少一位哥哥!记忆中,想有哥哥的想法最强烈的时候,是在大姐9岁,二姐7岁,我6岁那年夏天一个周六的午后,荒

期刊

小学生五朵金花父母亲学校人称姐妹记忆荒地备课

中国证券市场信息披露和监管探讨——杭萧钢构事件的深度剖析

本文从中国证券市场的现状着手，借最近爆出的杭萧钢构事件为契机，通过详细分析中国股票市场的各参与方的市场博弈和背后的利益驱动，来阐述在中国证券市场存在的信息披露，证券监管

学位

证券市场信息披露证券监管

两种新研制的立式组合高效破碎机

在分析了当前粉磨工艺常用的破碎设备的基础上，提出了两种新型破碎设备———立式组合破碎机和冲击组合破碎机。使物料得到有效破碎。前者产品已投入工业使用，后者产品已进入试

期刊

粉磨工艺破碎设备产品粒度物料质量冲击破碎试生产阶段水泥生产过程增产节能破碎比冲击速度

诉说[组诗]

期刊

党组织牵头事好办

江苏省江阴市澄江镇虹桥街道远望社区,整合社区资源,以党建带社建,建立了社区党建联席会,获得了驻区17家单位党组织的积极支持和热情参与,在开展多种形式的社区共建和丰富多

期刊

单位党组织特色社区社区文化活动党支部书记社区资源澄江镇军人俱乐部江苏省江阴市调研工作广场文化

J集团总管理处(管理类)结构化在职培训的实践

随着中国经济的发展，改革开放日益深化，不同性质企业之间的竞争已经不再是简单的政策、资金及技术，更多的是体现在管理的竞争上，尤其是民营企业，在规范化管理和如何在发展到一定程

学位

企业管理结构化在职培训管理模式

国有企业不良资产集中处置风险研究

国有企业是民族经济的命脉所在，在我国国民经济中发挥着主导作用。但是近年来，随着改革开放的不断深入，国有企业不良资产呈快速增长趋势，不良资产的存在，不仅导致企业整体资产质量

学位

国有企业国有资产不良资产资产处置

坚持高标准把住质量关

坚持高标准把住质量关邱德生冯燕生从１９９２年到１９９７年的５年中，我省监狱管理局党委共发展新党员７７８人，无一违纪，其中有４人被提为副处级以上干部，有２５７人走上副科级领导岗位，有６８人荣立三等功，１９８人被评为“

期刊

副科级监狱管理局副处级岗位明星入党积极分子党组织发展基层党支部建设中心任务省直工委动态管理机制

不均衡问题中的特征选择新算法:Im-IG

与本文相关的学术论文