论文部分内容阅读
近年来,数据流分类问题引起了广大研究者越来越多的关注。然而,实际应用中的数据流的类分布往往是非平衡的,即某些类(小类)的实例数量明显少于其他类(大类),被称为倾斜数据流SDS(Skewed Data Streams)。通常将所关心的小类定义为正类,而大类则定义为负类。对于这种类分布不均衡的数据进行分类时,采用传统分类方法由于训练集中的正类实例数目稀少导致训练不充分,进而造成正类的分类精度远远低于用户要求。为此,本文以提高正类的分类准确率为主要目标,同时考虑数据流环境下对算法的实时性等要求,开展高效、高性能的SDS分类方法研究。在此基础上,考虑到SDS环境下的概念漂移存在的普遍性,进一步研究SDS环境下的概念漂移检测与适应方法。本文的主要工作如下:(1)概述了数据流的定义、数据流分类问题定义及其评价标准,以及数据流中的概念漂移相关概念和处理方法等,并详细阐述了SDS分类问题的处理方法和研究现状。(2)SDS分类问题要求保证较好的正类分类精度的同时具有较好的时间性能。为了提高算法的时间性能,本文研究并提出了一种快速有效的SDS集成分类方法ECSDS。该算法通过设定相邻数据块的F1值差值大于等于某一阈值作为分类器更新标准,以此减少更新次数以提高算法效率;同时在更新分类器时引入错分正类实例使基分类器着重学习它们,以弥补更新次数减少所带来的精度下降问题。实验结果验证了算法的有效性,即在时间性能上有显著提高,同时具有较好的分类效果。(3)针对带有概念漂移的SDS分类问题,本文提出了一种基于errorRate+(正类分类错误率)的SDS漂移检测算法CSCEP。该算法将概率论中的区间估计理论运用到SDS中的概念漂移检测问题中,同时在分类器更新时引入错分正类实例集合,提升分类效果。实验表明,CSCEP能够及时检测到SDS中发生的概念漂移,使得已有的分类模型能够快速做出更新和调整,保证了正类的分类效果。