论文部分内容阅读
伴随着数据采集、数据存储等技术的不断进步,各个行业的数据呈现出爆炸式增长。同时,数据的类型也呈现出多样化发展,其中不平衡数据就是一类目前广泛存在,并出现在许多领域的数据类型,如出现在医学上的疾病诊断、网络上的防入侵系统,文本分类等方面。在不平衡数据类型中少数类具有很高的研究价值,通常是人们研究的重点。 传统的分类算法由于更加关注数据整体的分类效果,而由于多数类的数量较多,导致算法对于多数类的分类效果较好,而对于少数类的分类性能普遍不高。但在实际应用中少数类通常是我们关注的焦点,对于分类结果起着关键作用。 针对这种情况,论文具体分析了传统分类算法对于少数类数据分类精度不高的原因,并以k-means算法为基础,提出了基于聚类融合的REKM算法,以改善不平衡数据集的不平衡程度。之后将该算法结合随机森林分类算法,提出了REKM-RF算法,用于不平衡数据的分类。 通过对UCI数据上的实验表明,不平衡数据集经REKM算法处理后,随机森林算法对于数据集少数类的分类效果和数据集的整体分类效果都有一定程度的提高。之后将REKM-RF算法应用于原发性肺癌患者术后生存率的预测。结果显示,与不平衡数据集直接进行分类相比,REKM-RF算法的召回率和F值分别提高了42%和23%;与数据集先进行随机欠抽样处理再进行分类相比,REKM-RF算法的召回率和F值分别提高了40%和20%。最后利用REKM-RF算法分析了原发性肺癌患者术前影响因子,为患者术后预防与治疗提供借鉴作用。