论文部分内容阅读
针对传统机器学习算法对于不平衡数据少数类的分类精度较低的问题。分析了造成该问题的原因,进而提出一种欠抽样数据处理方法,提高少数类分类精度。该方法通过k-means算法对样本进行多次聚类,删除多数类的噪声以及多数类与少数类重叠度较高的样本。同时引入删除因子A,降低多数类丢失特性的风险。通过对UCI数据集的实验分析,经该方法处理,分类算法对少数类的召回率和F值均有提高,证明该方法能有效提高少数类的分类精度。最后将方法应用于预测肺癌患者的术后预期寿命,患者一年期死亡率的召回率和F值分别提高42%和23%。