论文部分内容阅读
众所周知,数据库中往往存在冗余数据、缺失数据、不确定数据和不一致数据等诸多情况,这些数据成了知识发现的一大障碍。因此,数据预处理就成为数据挖掘过程中非常重要的一环。如果将领域知识应用于数据于处理当中,可以有效地改善数据集的质量,缩小数据集的样本数量,从而提高数据挖掘的速度和质量。本论文针对应用领域知识的数据预处理技术进行了深入的理论和应用研究,改进了部分现有的数据预处理算法,并设计和实现了通用的应用领域知识的数据预处理系统。主要研究内容如下:1、对数据预处理技术的概念和意义做了全面和详细的描述,分析了数据预处理的各种主要方法,涉及数据清理、数据集成、数据变换和数据规约,并指出了现阶段数据预处理存在的缺陷;2、介绍了领域知识的概念和研究现状,重点给出了领域知识在数据挖掘各个阶段的重要意义和领域知识的表示方法;3、重点研究了面向数据预处理技术的领域知识的分类和表示,将应用于数据预处理的领域知识分为:范围知识、层次知识、规则知识和数理统计知识,依据此分类设计了领域知识的基于数据字典和XML文件的两层存储结构和存储方法,以及将领域知识应用于数据预处理过程的通用算法;4、着重研究了缺损数据处理和数据离散化两种数据预处理方法,分析了基于聚类的缺损数据处理算法,使用量化相似关系模型改进了ROUSTIDA算法,从初始分割点、最大容忍区间和综合考虑各属性的分割点三个方面改进了属性类别差异数据离散化算法;5、给出了所开发的应用领域知识的数据挖掘系统的框架结构、设计方法及处理流程,实现了基于领域知识的数据预处理系统。