数据流中代价敏感分类算法的研究与应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zxwlxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,特别是互联网技术的普及,每天产生的数据呈现爆炸式增长,这些数据基本都具有:高速到达、数据量大、实时性要求高等特点,是典型的数据流。如今,数据流已经出现在各个领域,例如银行中用户信用评级、医疗诊断、网络入侵检测等,针对这类数据的挖掘一直是研究的热点。另一方面,代价敏感分类算法,在分类过程中考虑了误分类代价,构建的分类模型追求代价的最小化,更加贴近实际应用场景,因而获得了广泛关注。然而,在数据流场景下,传统的代价敏感分类算法由于需要多次扫描样本数据,将不再适用。由此,本文对数据流分类和代价敏感分类这一交叉领域进行研究。通过将大众定理与GDT算法结合起来,提出了数据流中的代价敏感分类算法CsGDT;进一步,为了解决代价敏感分类过程中,只考虑误分类代价指标,而导致分类准确率过低的问题,本文对大众定理进行改进,并且在此基础上提出能兼顾误分类代价和准确率的soft-CsGDT算法。本文最后,使用合成数据和KDD CUP’99提供的现实数据进行了一系列实验,结果表明:CsGDT算法能够适应数据流场景,构造的分类模型能够实现误分类代价指标的最小化;另一方面,soft-CsGDT算法能够在保证与CsGDT算法逼近的误分类代价指标的情况下,显著地改善最终分类模型的准确率这一指标。
其他文献
公钥密码思想被第一次提出后,新颖的方法和思路在公钥密码思路的基础上得到了发展和提高。无论是国外还是国内,也相应地、不断地提出了很多新的关于公钥密码体制的实现模型,
随着对外开放的不断深入,我国英语学习者的数量急剧增加,对英语学习者的文章进行相关分析研究显得日趋重要。英文作文智能评改系统综合利用自然语言处理、统计学、语料库语言