论文部分内容阅读
随着信息技术的飞速发展,特别是互联网技术的普及,每天产生的数据呈现爆炸式增长,这些数据基本都具有:高速到达、数据量大、实时性要求高等特点,是典型的数据流。如今,数据流已经出现在各个领域,例如银行中用户信用评级、医疗诊断、网络入侵检测等,针对这类数据的挖掘一直是研究的热点。另一方面,代价敏感分类算法,在分类过程中考虑了误分类代价,构建的分类模型追求代价的最小化,更加贴近实际应用场景,因而获得了广泛关注。然而,在数据流场景下,传统的代价敏感分类算法由于需要多次扫描样本数据,将不再适用。由此,本文对数据流分类和代价敏感分类这一交叉领域进行研究。通过将大众定理与GDT算法结合起来,提出了数据流中的代价敏感分类算法CsGDT;进一步,为了解决代价敏感分类过程中,只考虑误分类代价指标,而导致分类准确率过低的问题,本文对大众定理进行改进,并且在此基础上提出能兼顾误分类代价和准确率的soft-CsGDT算法。本文最后,使用合成数据和KDD CUP’99提供的现实数据进行了一系列实验,结果表明:CsGDT算法能够适应数据流场景,构造的分类模型能够实现误分类代价指标的最小化;另一方面,soft-CsGDT算法能够在保证与CsGDT算法逼近的误分类代价指标的情况下,显著地改善最终分类模型的准确率这一指标。