论文部分内容阅读
随着大数据时代的到来,数据仓库的重要性日益凸显。ETL (Extraction、 Transformation、Loading)工具可将分布的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,进而加载到数据仓库中。然而,传统的ETL系统的开发方式需耗费大量人力物力,通用性较差。为此,本文采用基于元数据驱动的方法,针对现有的元数据描述没有完整的定义和统一的描述方法的问题,提出了一种简洁、通用的基于XML的ETL描述规范,利用动态内存管理、动态数据库连接池等技术优化了海量数据的处理,通过对行列转置等问题的研究实现了多维数据的处理。本文主要内容包括:1.提出了一套简洁、通用数据抽取、转换、加载的描述规范,为ETL每个功能模块的元数据模型描述提供规范。2.以XML为规范描述方式,设计并实现了对ETL描述规范的解析系统。该系统通过对规范中的实体定义相应方法,实现了对规范文档的读取、解析,并能按照文档内容进行数据抽取、转换和加载。3.基于ETL描述规范及其解析系统,完成了渤海海洋数据仓库中赤潮、海冰、风暴潮等19个主题的数据抽取转换加载。给出了数据格式不一致、数据抽取转换等问题的处理策略。