论文部分内容阅读
随着互联网的发展,互联网同人们日常生活的联系越来越紧密。门户网站为人们提供了新的信息获取方式,搜索引擎改变了人们被动获取信息的模式,社交网络则通过虚拟的方式拉进了人与人之间的关系。与此同时,互联网上产生了大量的信息。如何应用这海量信息挖掘用户的习惯,成为了现在研究的一大热点。数据预处理是处理海量信息的第一步。数据预处理将原始信息进行清洗、集成与转化最后归约成易于提取知识的形式。 本文的主要工作在于: 1.研究现有的数据预处理过程,找出过程中的主要特点和特性。现在对于数据预处理过程的研究是非常丰富的。本文将详细研究数据清洗、数据集成与转化以及数据归约中所常用的数据预处理方法,归纳出这些方法的主要特点,以便于下一步的研究。 2.基于数据预处理过程的特点,提出一种表征数据预处理过程的方式。在找出预处理过程的一些特点后,本文试图将这些特点纳入一个可以表示大部分预处理的流程模型。有了流程模型,原本抽象的数据预处理过程可以用具体的流程模型来表征,为实现预处理方法提供了理论工具。 3.设计并实现了采用可扩展通用数据预处理方法的系统ArmyAnt。本文实现的通用可扩展数据预处理系统可以应用在任何可以采用流程模型表征的数据预处理过程中。该数据预处理系统主要包括三个模块:数据模型模块、处理节点模块以及序列化与通信模块。各个模块之间是低耦合的,改变某个模块的实现不会影响其他模块的工作。 本文最后将ArmyAnt实现用于实际数据预处理过程,证明了本文方法设计与实现的合理性。