论文部分内容阅读
目前,数据流挖掘技术受到了许多学者的关注,然而,传统的数据流挖掘技术在处理概念漂移、概念进化等方面仍存在亟待进一步解决的问题。因此,本文面向概念漂移数据流数据挖掘提出了一种改进性的新异类检测及分类算法,着重研究了基于数据流特征空间转换的数据流分类方法。本文主要研究工作和成果如下:1、对2000-2016年间概念漂移数据流分类算法主要成果进行了综述分析,并分类进行了实验对比研究,总结了不同类别的数据流分类算法之间的性能差异,指出了现有概念漂移数据流分类算法存在的主要问题及改进方向。2、研究提出了一种基于马氏距离改进的概念漂移数据流新异类检测及分类算法C&NCBM(1)。该算法通过引入马氏距作为相似性度量,考虑了样本属性间的相关性,关注变量细微变化的作用,可以有效的检测概念漂移数据流中出现的新异类并标记,随后更新分类模型以适应数据流的变化提升算法的准确率。在人工数据集和UCI数据集上分别进行了算法分类性能以及概念漂移处理的对比实验,实验结果表明,C&NCBM算法在提升数据流分类准确率方面是有效的,分类准确率得到了提高,且能较好的处理数据流中的概念漂移。3、研究提出了基于ReliefF特征空间局部无损转换数据流分类算法LLHCCR(2),该算法对特征空间设定阈值,若超过限定阈值则使用ReliefF对特征属性进行筛选,否则使用特征空间无损转换方法。本方法降低了现有特征空间无损转换维度灾难的可能性,同时保证了算法的分类准确度,且显著减低了算法的分类时间。在人工数据集和UCI数据集上分别进行了算法分类性能以及概念漂移处理的对比实验,实验结果表明所提出的LLHCCR算法是有效可行的,在分类准确率、分类评估时间方面得到了有效改善,同时具备处理数据流概念漂移的能力。本文研究贡献:综述总结了2000-2016年间概念漂移数据流分类算法主要成果并进行了实验比较研究;从特征空间转换、新异类检测等方面对传统数据流分类算法进行了优化改进,实验结果表明,优化所提出算法是有效可行的。