论文部分内容阅读
分类是数据挖掘方法中的一种重要手段,经典的分类算法通常基于数据样本分布大致均衡的前提,追求分类的总体准确率。然而现实应用中普遍存在数据样本分布不平衡的情况,其中数据集中的少数类样本往往更受关注。受样本分布不均的影响,传统的分类算法在分类时通常偏向多数类样本,且无法有效避免噪声数据的干扰,因此并不完全适用于不平衡数据分类的场景。因此,有必要对不平衡数据的分类方法进行进一步的研究。本文从噪声过滤方法和集成学习模型两方面对不平衡数据分类方法进行分析和创新,提出了一种新的噪声过滤-集成模型(TWK-LGEE),该模型包含噪声过滤算法(TWK)和集成分类模型(LGEE)两部分。主要工作包括:1)分析传统噪声过滤方法的不足之处,提出了一种结合Tomek-Link与特征加权KNN的噪声过滤算法(TWK)。TWK结合两种位置关系判定,引入基于F检验的特征权重,对数据集中的多数类样本和少数类样本都能进行有效的噪声过滤,同时结合数据集中少数类样本的稀缺程度,通过阈值的选择来避免样本的误剔除,从而保护少数类样本中有价值的信息。2)使用轻度梯度提升算法LightGBM作为基分类器构建EasyEnsemble形式的集成模型,利用LightGBM的高效便捷的特性提高集成模型的整体分类效率。3)对传统的EasyEnsemble框架进行改进,根据数据集类别不平衡比率的大小调节EasyEnsemble的采样方式,在样本类别分布极不平衡时,对少数类样本进行Borderline-SMOTE过采样,使生成的样本子集在类别分布趋于平衡的同时能够保障数据的质量。本文采用2019年Kaggle信用卡欺诈检测比赛的数据样本作为实验的数据集,分别对文中提出的噪声过滤方法(TWK)、集成分类模型(LGEE)和整体模型(TWK-LGEE)进行对比实验。实验结果表明,TWK算法相比于最佳对比方法在F1和G-mean两项指标上分别提升了 3.94%和3.98%。不平衡集成分类模型LGEE相比于表现最佳的对比模型在F1和G-mean上分别提升了 15.28%和14.73%,运行时间缩短了 77.02s。组合对比实验的结果表明TWK-LGEE在9个模型组合中拥有最好的分类效果。