数据集成环境下的ETL工具设计及实现

来源 :华侨大学 | 被引量 : 0次 | 上传用户:oliversong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了数据集成环境下的ETL工具设计与实现技术,重点探讨了建立在Web服务基础上的ETL实现方式及人工智能技术在数据清洗方面的应用,并作了改进。本文首先介绍ETL的概念、研究现状;接着概述ETL涉及的主要的关键技术;第三部分提出基于Web Services的ETL原型并对ETL主要模块进行了详细设计;在第四部分详细介绍部分关键模块的改进细节与实现技术。本文的特色之一是将ETL工具建立在Web服务基础上,在元数据的映射方面使用了直接映射的方法,从而增强了ETL工具的适应性;本文的另一特色在于在数据清洗模块中引入人工智能处理技术,并对判定树方法在空缺值处理方面的应用、相似重复值的多趟近邻检测算法及位置编码检测算法进行了改进和优化,异常值的检测则首先对数据进行分类,并在此基础上根据统计学原理来判断数值异常,利用基于业务规则库的检测方法来判断其它属性列异常,并对两种判断方法所得的结果进行合并。空缺值的改进使得程序自动化程度得到提高;异常值检测由于采用两种方法,使检测效果得以改善;实验结果表明相似重复值检测算法方面的改进在保证查全率的同时有效地提高了检测的准确率与效率,并增强了检测的稳定性。本文使用Ajax技术建立ETL客户端,避免了B/S架构中固有的频繁刷新问题,同时由于Ajax采用异步技术与服务器通信,缩短了系统的响应时间,减少用户操作的等待时间,从而改善了用户与系统的交互体验。
其他文献
当今世界已经进入了以网络为中心的网络计算时代,由于传统的网络模式存在互操作性差和平台隔离等问题,如何在网络计算模式下解决这些问题,实现全世界计算机之间计算资源和服
Internet的飞速发展使P2P技术成为研究热点。P2P技术为充分挖掘网络上空闲的计算机资源提供了一种手段,实现了网络资源的全面共享。如何设计与之对应的分布式索引结构来支持
随着互联网的发展,网络安全形势变得日益严峻。我们可以通过网络测量对DDOS攻击、蠕虫传播、僵尸网络等异常网络行为进行检测。在高速网络中,因为分析每个报文和流信息需要大
随着便携计算机的普及和无线局域网技术的不断成熟,网络对移动性的支持显得越来越重要。移动IPv6技术正是为适应这种需求而产生的一种新的支持移动用户和因特网连接的互连技
近年来,随着游戏产业的不断发展,人工智能在游戏中的作用也越来越大,并且成为了一项热门技术。智能寻路系统作为人工智能的一个分支在现代网络游戏中占据着重要的地位。当前大部
XML以其可扩展性、结构性、平台独立性和自描述性等特点成为数据表示和交换的事实标准,越来越多的应用使用XML来存储、交换和发布信息。为有效的管理这种半结构化的数据,XML
在计算机视觉系统中,几何特征是识别物体的重要属性,当图像中物体的位置、方向或尺度发生变化时,利用物体的几何特征依然可以描述和分辨物体。线作为几何特征中的一种重要特
近年来,我国农村信息化建设取得长足发展,成绩显著。但在信息化建设领域方面,由于刚刚起步,目前农村信息内容发展还存在许多问题:各种信息系统自成体系,相互之间缺乏有效的协作;信息
在自然语言处理的研究中,词语聚类算法是被广泛研究的课题。它在自然语言处理各个应用中均扮演十分重要的角色。词聚类算法在文本信息检索,机器翻译,语音识别以及自然语言理解
由Bosch公司所开发的CAN总线控制技术,获得了国际标准化组织的认可及许多半导体器件制造商、网络系统开发商的支持,被广泛地应用于汽车、工程机械和工业现场控制,是一种性能优异