综合过采样和欠采样的不平衡数据集的学习研究

来源 :东北电力大学 | 被引量 : 54次 | 上传用户:jj80022084
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据学习已经逐渐成为当前机器学习领域研究热点之一。在解决不平衡数据集的学习分类的问题时,需要尽可能大的提高分类器对少数类的预测精度,而且也要保证分类器的分类精度受到特别大的影响。本课题在对不平衡数据的特殊性的研究基础上,结合实际数据集中数据分布特性和数据各个属性的在分类过程中的作用,对目前常用于不平衡数据的重采样方法进行改进,有效的解决存在于传统方法中的不足,得到了新的重采样方法。为了确保对少数类的识别性能,对集成分类器进行相应的改进,最终得到一个针对不平衡数据集的完整的分类学习系统。首先,本课题提出了一种针对不平衡数据集的基于数据密度分布的欠采样方法。该算法引入数据密度的概念,并以此将多数类数据划分为高密度数据簇和低密度数据簇,针对不同密度的数据簇,执行不同的重采样策略,以达到改善数据平衡度的目的。实验通过选取6组UCI数据集进行验证,选取C4.5、SVM作为分类器,将该方法与随机欠采样、KNN-Near Miss等方法进行比较,实验结果表明,该方法对不平衡数据分类有较好的效果,能有效提升分类器对少数类的识别性能。其次,该方法通过研究不同属性对少数类样本识别的不同作用,将属性划分为显性属性、隐性属性。显性属性偏向于少数类,为少数类样本的识别提供可靠、充分的信息,隐形属性偏向于多数类,对少数类的识别形成干扰。因此,针对不同属性,采用不同复制策略,最终实现对合成少数类样本的样本质量提升。通过选取6组UCI数据集,与SMOTE、随机过采样等方法进行比较,实验结果表明,经过该方法重采样的不平衡数据集,其数据分类学习效果、少数类的识别率得到了提升。最后,为了进一步提高对不平衡数据集中少数类的识别率,对Databoost-IM方法进行深入研究,针对其过分强调难分样本的缺点,提出一种新的集成分类方法,该方法每次迭代时确定出难分样本中的种子样本,然后利用这些种子样本来生成合成数据,并添加到训练样本中进一步训练分类器,最终得到新的训练集去训练新的分类器。
其他文献
信息技术迅猛发展,计算机的应用领域也越来越广泛,已经从过去单纯的科学计算发展到了很多其他的领域,例如过程检测与控制、信息管理以及计算机辅助设计等。这就对计算机的智
在当前信息技术广泛应用的环境下,电子政务的发展同政府职能的转变一样受到高度的关注和重视。随着越来越多的政府职能最终通过电子设备和网络提供给社会,公众对电子政务系统
自E-911定位法规颁布以来,定位服务在近十年得到了迅速的发展,在人们的生产生活中得到了广泛的应用。面对3G时代的来临,定位服务必将有更广阔的市场,在提高人们生活质量的同
蚁群算法在求解TSP问题时,有陷入局部最优解、收敛速度太慢和求解质量不高以及稳定性不足等三个缺点。文章针对这三个缺点,提出了一种以基于斥候蚁实现的动态局部搜索为核心
随着宽带业务的广泛发展,流媒体服务在互联网中所占的比重越来越大,出现了大量的流媒体应用,如网络电视、体育直播、远程教育等。在传统的流媒体应用系统中,大多采用基于C/S
信息检索过程中最重要的环节就是检索出与用户需求相关的内容。其核心问题就是:对于给定的用户查询,对文档集中的每个文档与查询进行相关性判断。在这一过程中,查询表达了用
无线传感器网络技术融合了现代传感器技术、微电子技术、嵌入式技术、分布式信息处理技术及通信网络技术,是一门新兴技术。它在军事、工业、环境监测、医疗等领域有广泛的应
随着科学技术的迅猛发展,人们对世界的认识越来越广,也因此获得了大量的知识并改善了自己的生产生活。在这个过程中,人们也面临着越来越多的矛盾问题。可拓学应运而生。可拓
本课题来源于西南交大出版社,该出版社要求开发出的考试系统要与教材绑定使用,在满足学生基本考试功能的前提下,还要求尽量减轻教师的考务工作,实现阅卷的自动化,为了解决上
随着我国教育事业的不断改革和发展,近年来高校界的办学规模逐渐呈现出扩大化的趋势。虽然这样可以为大批学子创造出更多的接受高等教育的机会,但同时这也为高校的日常管理工