论文部分内容阅读
数据清洗的一个重要方面是发现数据中的异常数据或者噪声,并对其进行处理。对于异常数据比例较多、数据质量较差的数据,传统的基于统计学的异常检测方法结果往往不尽如人意,异常数据百分比越大,传统的异常检测算法的召回率越低。本文研究的数据清洗方法是采用数据挖掘领域中基于密度的异常数据挖掘算法,在数据质量较差的情况下仍有较高的异常点召回率和准确率,对数据质量的容忍度远远大于传统的统计学方法。