面向高维和不平衡数据分类的集成学习研究

被引量 : 33次 | 上传用户:wudizeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘研究正面临各种数据问题的挑战,不同特性的数据增加了算法研究的复杂度。其中,对具有高维和不平衡特性的数据分类是近年的研究焦点。现有方法仅考虑了高维或不平衡的某一特性,但大量现实数据却同时展现了双重特性。在分类具有双重特性的数据时,单独针对高维或不平衡数据的分类算法面临性能瓶颈。如何有效分类高维且不平衡的数据是应用研究亟需解决的问题。分类高维不平衡数据的方法有两种:预处理(特征选择和取样)再分类和直接分类。预处理后的数据可以直接用于已有分类算法,但数据损失了部分特征和实例信息,预处理的效果将影响分类性能。直接分类可以保留全部数据信息,但分类算法必须兼顾考虑高维和不平衡特性,增加了设计的复杂度。本文从这两个方面展开研究,针对预处理高维且不平衡数据时,先特征选择还是先取样问题,通过实验对比获得特征选择先于取样更优的结论;针对先特征选择面临的数据不平衡问题,提出了不平衡数据特征选择算法BRFVS;针对预处理数据可能导致特征或实例的损失问题,在基于特征的集成学习框架下,从随机方式(随机森林)和选择方式(集成特征选择)两个方面提出了代价敏感随机森林算法CSRF和基于集成特征选择的分类算法IEFS。本文所做具体工作如下:1)对比特征选择和取样顺序对分类性能的影响。在特定领域(软件缺陷检测)的实验研究结果显示,先取样再特征选择后的分类效果更优。由于实验数据单一,该结论不具有普及性。而在多个其他领域的验证研究显示,特征选择和取样的顺序并不是影响分类性能的关键因素。但因为引入了人为噪声因素,该结论不适用于无噪声的情况。本文从UCI数据集中,按照应用领域、维数和不平衡程度筛选了12个实验数据集。以AUC为评价标准,测试了过滤式和封装式特征选择方法与取样方法组合预处理后对分类性能的影响。不同于上述结论,先特征选择再取样的平均AUC性能在12个数据集上的表现优于先取样再特征选择。该结论可为预处理高维不平衡数据提供实践指导。2)提出不平衡特征选择算法BRFVS。目前针对不平衡数据特征选择的算法相对较少。已有的EFSBS算法属于过滤式方法,没有充分利用分类算法的反馈;PREE算法尽管利用了分类的性能反馈,但不能处理离散型特征。BRFVS是一个既能处理离散型,又能处理连续型特征,同时能充分利用分类算法反馈的特征选择算法。BRFVS借鉴了随机森林算法的思想,采用欠取样产生多个平衡数据集,在各数据集上利用随机森林变量选择方法计算特征重要性度量值。最终的度量值通过对各数据集的度量值加权求和获得。数据集的权重由其与集成预测的一致性程度决定。实验对比了随机森林超参数K的取值对算法性能的影响,结果显示,当K取值为M时,采用BRFVS特征选择后再取样的分类性能优于普通特征选择后再取样的分类性能。进一步验证了先特征选择后取样更优的实验结论。3)提出代价敏感随机森林算法CSRF。尽管直接分类可不受预处理性能的影响,但已有的高维数据分类算法不能有效分类不平衡数据,而不平衡数据分类算法未考虑数据展现高维特性的情况。CSRF在随机森林的决策树属性分裂度量中引入测试代价和误分类代价,这两种代价分别相关于小类数据,通过调整对小类的关注度提高对小类的正确识别率。实验对比了CSRF算法、原始随机森林算法和仅引入误分类代价的随机森林算法。CSRF在AUC性能,尤其是小类的正确识别率上有明显优势,同时,CSRF算法的分类性能也明显高于预处理后再分类的分类性能。4)提出基于集成特征选择的高维不平衡数据分类算法IEFS。已有集成特征选择算法的目标函数仅考虑多样性和准确性的加权求和,未考虑不平衡特性,不适用于不平衡数据分类。IEFS算法选择Kohavi-Wolpert方差作为多样性度量方法,在其中引入奖惩因子增加对小类的关注,并采用爬山法搜索解空间,可兼顾考虑多样性、准确性和不平衡性。实验结果显示,此方法在AUC分类性能上略差于CSRF分类算法,但是其在AUC分类性能和小类的识别上明显高于C4.5和随机森林算法。尽管先特征选择面临数据不平衡问题,但不论是采用BRFVS算法还是普通特征选择算法,先预处理高维问题再处理不平衡问题的方式将产生更优的分类性能。直接分类与预处理再分类的性能对比显示,直接分类方法在AUC和小类正确识别率上优于预处理方法,但时间代价更大,适用于离线处理方式。IEFS算法由于受到搜索方法的局限性,展现的性能则略差于CSRF算法。
其他文献
食品是人类社会赖以生存和发展的最基本的物质基础。食品安全与否,直接关系到人们的身体健康和生命安全、社会经济的健康发展和社会的和谐稳定、关系到政府和国家的声誉形象。
国际税收竞争是经济全球化的产物,是各国政府实施以税收为载体、以促进本国经济增长为目的的竞争,其国际竞争是通过税收分配,使经济资源在全球范围内的配置产生变化。本文首先分
随着我国社会主义市场经济体制的建立和日趋完善,财务信息的决策价值显著提高。从某种意义上来说,企业财务信息的质量直接关系到市场经济的健康发展和有序运作,而会计政策选择又
中国传统文化具有世俗性、群体价值取向、道德中心化倾向和封闭保守性的特征,这些特征是精华与糟粕、积极与消极的统一。只有认清中国传统文化的特征,才能促使传统文化转型为社
<正> 线索梳理一、线索与特征秦汉时期,从公元前221年秦统一六国到公元220年东汉灭亡,包括秦、西汉、新朝和东汉四个统一王朝,这是我国封建社会初步发展和中国历史上第一个封
本文着重分析了哈代诗歌中的悲观主义。文章认为哈代诗歌的总基调是悲观忧郁的,但由于哈代哲学思想的矛盾性, 使得他诗歌之中的悲观主义思想极不彻底。绝望和希望两种截然相反
目前我国已经成为乙基麦芽酚生产、出口大国,各个厂家为了降低成本,不断改进工艺,提高收率,以适应激烈的市场竞争,同时也大大降低了乙基麦芽酚原有的焦香气味.为了弥补目前乙
资本作为生产要素、社会资源,对社会生产力的发展发挥着巨大的推动作用,对于当前我们的社会主义现代化建设亦是至关重要。然而资本追求无限扩张的贪婪秉性,其运作带来的负面
笔者早年在北京学习非物质文化遗产——古诗词歌曲,初步了解到我国目前非物质文化遗产的一些现状,内心不禁为之可惜,上下五千年的瑰宝因为“快餐时代”的到来竟也变成“珍稀
世界经济在其漫长的发展过程中,经历了波浪式的前进历程,其中有经济发展的高涨期,也有经济发展的萧条期。在高涨期,国民经济快速发展,人民生活水平显著提高,企业所面临的经营风险有