论文部分内容阅读
随着数据收集和存储技术的不断发展以及人们对信息获取的要求越来越高,数据挖掘已经成为许多行业不可缺少的有效工具。在数据挖掘的整个过程中,数据预处理无疑是非常关键的一个步骤,因为只有采用了可靠、准确的数据才能得到比较满意的挖掘结果。据不完全统计,数据预处理大约占整个挖掘过程工作量的60%左右。不完全数据是数据预处理中遇到最多、也最基本的问题,况且现实世界的数据库很少是完整的,没有缺失的,因此,如何处理这些缺失的不完全数据已成为一个国内外比较关注的、亟待解决的热点研究问题。不完全数据的处理方法可分为删除元组、缺失数据填充和不处理三大类。Han和Zhang等认为,从使用的频率和研究的程度等方面来看,最常用的一种处理缺失值的方法是数据填充法,这种方法无论在技术上还是在理论上都应得到很好的重视和研究。本文主要针对数据挖掘中的不完全数据,研究能够简单有效地填充缺失数据的处理方法。首先,对常用的缺失数据填补方法进行系统总结和比较,其次,针对类均值法的不足,着力予以改进,提出加权类均值调整法和基于模糊技术的类均值填补法。本文的主要研究工作如下:1、通过介绍数据挖掘的相关知识和对挖掘过程的详细阐述,说明数据预处理是数据挖掘中最关键的环节和阶段之一;对该阶段中不完全数据的处理问题进行细致讨论,包括它的产生原因、事前预防、事后处理等内容;分析几种常用的事后填补方法,阐述各方法的原理并指出各种方法的优缺点。2、针对简单填补策略中常用的类均值法主要缺点,提出我们的改进方法:通过对各组赋予不同的权值进行加权调整使得填补结果尽量接近真实值,且通过赋予不同的权重可以使每个对象的填补值都不一样,最终达到提高变量间变异程度的目的。另外,针对加权调整法中权重比较主观的问题又提出了基于模糊技术的类均值填补法,该方法能够很好地克服上述两个缺点。3、用R软件对三种方法进行了模拟实验,通过实验结果的比较验证了所提两种改进方法的可行性和有效性。