一种可扩展通用数据预处理方法的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:toofar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,互联网同人们日常生活的联系越来越紧密。门户网站为人们提供了新的信息获取方式,搜索引擎改变了人们被动获取信息的模式,社交网络则通过虚拟的方式拉进了人与人之间的关系。与此同时,互联网上产生了大量的信息。如何应用这海量信息挖掘用户的习惯,成为了现在研究的一大热点。数据预处理是处理海量信息的第一步。数据预处理将原始信息进行清洗、集成与转化最后归约成易于提取知识的形式。  本文的主要工作在于:  1.研究现有的数据预处理过程,找出过程中的主要特点和特性。现在对于数据预处理过程的研究是非常丰富的。本文将详细研究数据清洗、数据集成与转化以及数据归约中所常用的数据预处理方法,归纳出这些方法的主要特点,以便于下一步的研究。  2.基于数据预处理过程的特点,提出一种表征数据预处理过程的方式。在找出预处理过程的一些特点后,本文试图将这些特点纳入一个可以表示大部分预处理的流程模型。有了流程模型,原本抽象的数据预处理过程可以用具体的流程模型来表征,为实现预处理方法提供了理论工具。  3.设计并实现了采用可扩展通用数据预处理方法的系统ArmyAnt。本文实现的通用可扩展数据预处理系统可以应用在任何可以采用流程模型表征的数据预处理过程中。该数据预处理系统主要包括三个模块:数据模型模块、处理节点模块以及序列化与通信模块。各个模块之间是低耦合的,改变某个模块的实现不会影响其他模块的工作。  本文最后将ArmyAnt实现用于实际数据预处理过程,证明了本文方法设计与实现的合理性。  
其他文献
随着计算机和网络技术的飞速发展,信息资源急剧增长,三维几何模型数据成为继声音、图像和视频之后的新一代多媒体数据模型,而三角网格表示是主流的三维模型表示方法之一。高精度
随着计算机视觉相关领域的发展,传统的二维成像技术已经不能满足人们的需要;越来越多的基于三维图像的技术不断涌现,丰富了人们的生活,也促进了科技的发展。另一方面,许多的应用
由于XML数据具有表示灵活和互操作性强等诸多关系数据所不可比拟的优点,因而在企业数据集成和互联网在线服务等领域得到广泛的应用。XML模式是对XML文档结构的描述,它在XML的数
CORBA是OMG对象管理组织提出的应用于不同系统之间互联的解决方案,以中间件的形式实现了异构网络的互联,并且已经广泛应用于分布式商业化管理系统当中,因此,相对于传统的网络系统
手指静脉识别技术作为一种新兴的生物特征识别技术,近年来获得了越来越多研究者的关注,取得了喜人的进步。手指静脉生物特征识别技术具有不易窃取、不易伪造、识别准确率高、适
多核处理器也称为片上多处理器(Chip Multi-processor,简称CMP)或单芯片多处理器。受限于芯片功耗和设计复杂度等因素,传统的超标量结构处理器已经无法有效利用不断增长的晶体管
图像信号处理依赖于图像信号建模,通常图像信号建模是通过对图像数据的降维来获得信号的紧致表达。稀疏表示模型通常利用信号的样本数据训练一个过完备字典,使得信号在该字典下
在网络环境下,一些网页脚本、分布式查询等可能动态生成查询请求或程序。这类查询或程序通常难以提前对其进行静态编译,如XQuery、JavaScript、Python、MATLAB等,它们一般是
在今天的互联网中,随着用户接入网络的物理带宽的提高,大部分的互联网上的内容作为信息密集的形式存在(如视频、音频、文件流),互联网的飞速发展引发了网络数据内容的急剧膨胀。当
对于安全性要求较高的局域网环境,现有的病毒检测方法存在着一些缺陷。各反病毒软件厂商之间病毒库和反病毒技术不共享,而单个反病毒软件不足以应对各种各样的病毒,在检测新出现