论文部分内容阅读
数据挖掘中的数据大多来自现实世界,这些数据集中或多或少地存在数据缺失、数据冗余、数据不一致等问题,这些数据称之为“脏数据”。数据收集条件的制约、度量方法错误、人工录入时出现遗漏和违反数据约束等都是导致数据集中存在大量“脏数据”的原因。在某些领域的数据集中,各种“脏数据”的比例甚至高达50%-60%以上。这些问题数据不仅意味着错误信息,更重要的是它会影响后续数据挖掘工作,导致抽取模式错误和导出规则的偏差,即“脏数据进,脏数据出”。如何处理这些“脏数据”变得尤为重要,数据清洗就是完成这方面的工作。因此,数据清洗已成为数据预处理及数据挖掘领域研究的主要内容之一。本文重点研究数据挖掘领域中的数据清洗技术,特别是对缺失值的数据清洗。数据清洗的种类主要有异常数据处理、缺失值处理和重复记录的处理,其中缺失值清洗尤为常见。传统的基于聚类缺失值填充算法仍然存在填充准确率低的缺陷,且填充效率不稳定。为此,本文对聚类缺失数据填充方法加以研究和改进,提出距离最大化和缺失数据聚类的填充策略。通过多个实验表明,相应的改进算法有很好的效果。本文主要研究工作如下:(1)首先,本文算法对聚类方法进行改进。原填充算法需要提前输入k值,而且难以确定k值为多少时产生的聚类结果最优,这样直接影响了填充数据的正确率。因此,根据相距最远的数据不在同一类中的原则,改进后的算法使用数据间的最大距离确定聚类中心,可以自动确定k值,使得聚类结果快速达到最优,更高效的进行数据填充;(2)其次,对填充算法的流程进行优化,将聚类和计算缺失数据相似度合并。由于聚类方法不可对含有缺失数据的数据集进行聚类,通过对聚类的距离函数加以改进,采用缺失距离计算方式聚类。改进后的算法可以对含有缺失值的记录进行聚类,做到同时进行聚类和标记缺失数据所属类,从而简化原填充算法流程,提高效率;(3)最后,在填充过程中,增加对离散型数据的填充处理。如果缺失值属性是离散性属性,则改为使用标记类中出现频率最高的值填充缺失值;如果缺失值属性是数值型属性,则依然用标记类的相应属性的平均值填充缺失值。