不平衡数据分类方法研究及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:longyixu13543078183
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘方法中的一种重要手段,经典的分类算法通常基于数据样本分布大致均衡的前提,追求分类的总体准确率。然而现实应用中普遍存在数据样本分布不平衡的情况,其中数据集中的少数类样本往往更受关注。受样本分布不均的影响,传统的分类算法在分类时通常偏向多数类样本,且无法有效避免噪声数据的干扰,因此并不完全适用于不平衡数据分类的场景。因此,有必要对不平衡数据的分类方法进行进一步的研究。本文从噪声过滤方法和集成学习模型两方面对不平衡数据分类方法进行分析和创新,提出了一种新的噪声过滤-集成模型(TWK-LGEE),该模型包含噪声过滤算法(TWK)和集成分类模型(LGEE)两部分。主要工作包括:1)分析传统噪声过滤方法的不足之处,提出了一种结合Tomek-Link与特征加权KNN的噪声过滤算法(TWK)。TWK结合两种位置关系判定,引入基于F检验的特征权重,对数据集中的多数类样本和少数类样本都能进行有效的噪声过滤,同时结合数据集中少数类样本的稀缺程度,通过阈值的选择来避免样本的误剔除,从而保护少数类样本中有价值的信息。2)使用轻度梯度提升算法LightGBM作为基分类器构建EasyEnsemble形式的集成模型,利用LightGBM的高效便捷的特性提高集成模型的整体分类效率。3)对传统的EasyEnsemble框架进行改进,根据数据集类别不平衡比率的大小调节EasyEnsemble的采样方式,在样本类别分布极不平衡时,对少数类样本进行Borderline-SMOTE过采样,使生成的样本子集在类别分布趋于平衡的同时能够保障数据的质量。本文采用2019年Kaggle信用卡欺诈检测比赛的数据样本作为实验的数据集,分别对文中提出的噪声过滤方法(TWK)、集成分类模型(LGEE)和整体模型(TWK-LGEE)进行对比实验。实验结果表明,TWK算法相比于最佳对比方法在F1和G-mean两项指标上分别提升了 3.94%和3.98%。不平衡集成分类模型LGEE相比于表现最佳的对比模型在F1和G-mean上分别提升了 15.28%和14.73%,运行时间缩短了 77.02s。组合对比实验的结果表明TWK-LGEE在9个模型组合中拥有最好的分类效果。
其他文献
《农业生物技术学报》第三届编委会第二次会议于2011年10月14日在河南省安阳市中国农业科学院棉花研究所召开。
利用不变子空间方法研究一般的三阶非线性微分算子的分类问题.证明了当三阶算子容许次于最大维(六维)不变子空间时,它可以被表示为各参量的平方形式,得到了常系数三阶非线性微
本文研究带有胰岛素运输时滞、肝糖原生成时滞以及胰岛素周期脉冲注射的一类血糖-胰岛素相互作用系统,利用Krasnoselskii不动点定理,我们证明该系统存在一个正的周期解,然后
本文提出运用系统工程的思想与技术,将水资源开发利用置于一个复杂时变的社会经济系统中进行模拟与分析的方法,以反映所研究地区未来时期水资源开发利用的发展变化趋势,为制定与
本文研究基于污染数据情形的一类广义指数分布刻度参数的经验贝叶斯估计问题.在stein损失函数下,导出刻度参数的贝叶斯估计以及利用解卷积的核方法构造了该参数的经验贝叶斯
振动问题是阻碍我国摩托车产业发展的一大障碍。传统解决方法,结构复杂,成本高,采用弹性减振器进行振动控制,克服了传统方法的弊端。对发动机弹性悬挂系统进行动力学分析,推导出弹
当前,世界正处于大发展大变革大调整时期,世界多极化、经济全球化、社会信息化、文化多样化等深入发展。全球治理体系和国际秩序变革加速推进,各国相互联系相互依存的程度日益加深,越来越成为你中有我,我中有你的命运共同体。各国必须在政治、经济、安全等各个领域深化合作,才能寻求共同发展。2020年新年伊始,一场蔓延全球的新冠肺炎疫情,更是让所有人认识到,只有相互合作团结,才能打赢这场胜仗。因而,在这样的时代下
<正>一、课题的提出(一)研究背景二十世纪五十年代以来的教改理论和实践,都是摒弃极端,博采众长。有效教学模式的研究出现了多样化、综合化的发展态势。影响较大的有效教学模
会议
当前投掷问题的研究主要着重于对运动轨迹的优化,对其释放动作的研究较少。尤其在使用强化学习方法时,该问题尤为明显。近年来,强化学习被广为应用在各种领域。然而当某些动
本文根据Rosenblatt过程的Hlder连续性,给出关于该过程的Riemann-Stieltjes积分.进一步,得到在该积分意义下的随机Fubini定理.