论文部分内容阅读
企业信息化的高速发展使得各企业都积累了大量的数据,他们都在绞尽脑汁的试图将这些数据应用到自身发展的决策中.数据挖掘的目的是从大量数据中提取隐含的同时又是极为有用的信息,使数据得到有效的利用.然而,由于数据库架构设计不合理,数据管理维护不当,数据采集或录入的错误和一些其他原因等,导致数据中难免会存在一些问题.此外,企业与企业间的数据交流也产生了大量的数据质量问题.这些问题很大程度上影响着数据挖掘的成败.因此,使用数据预处理技术改善数据的质量显得尤为重要.本文首先介绍了数据预处理的相关理论知识,按照一般文献中对数据预处理的任务划分对数据预处理的各个部分进行了理论上的概述.其次,根据数据预处理中的基本任务结合实际应用和研究情况将数据预处理重新分为了质量检查、数据清理、属性变换、实例变换、属性选择和实例检测六个部分.进而以此为架构设计并实现了一套面向数据挖掘的数据预处理系统,该系统包括数据格式转换子系统和预处理算法实现环境子系统两部分:(1)数据格式转换子系统能够连接各种数据源,包括数据库或者平面文件等,实现对数据源的统一浏览、操作以及相互间的格式转换.(2)预处理算法实现环境子系统主要功能有数据质量的检查,缺损值的填充,数据的规范化,噪音数据的平滑以及重复记录的检测.最后,本文还对重复记录检测问题所涉及的属性相似度、记录间的比较策略和重复记录的识别策略进行了详细分析与深入研究,并针对记录集合的分块策略中的后缀数组分块策略无法解决属性值结尾处的不一致问题,提出了一种利用排序滑动窗口策略的改进方法.改进后的算法能有效应对属性值结尾处的不一致问题,增加了记录分块的准确度.通过使用这套系统对数据进行预处理,能够有效的改善数据中的质量问题,使得数据更加符合数据挖掘算法的要求,极大的方便了数据挖掘任务中的数据预处理过程.