数据抽取、转换、加载描述规范的研究与应用

来源 :青岛大学 | 被引量 : 0次 | 上传用户:yu555497
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据仓库的重要性日益凸显。ETL (Extraction、 Transformation、Loading)工具可将分布的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,进而加载到数据仓库中。然而,传统的ETL系统的开发方式需耗费大量人力物力,通用性较差。为此,本文采用基于元数据驱动的方法,针对现有的元数据描述没有完整的定义和统一的描述方法的问题,提出了一种简洁、通用的基于XML的ETL描述规范,利用动态内存管理、动态数据库连接池等技术优化了海量数据的处理,通过对行列转置等问题的研究实现了多维数据的处理。本文主要内容包括:1.提出了一套简洁、通用数据抽取、转换、加载的描述规范,为ETL每个功能模块的元数据模型描述提供规范。2.以XML为规范描述方式,设计并实现了对ETL描述规范的解析系统。该系统通过对规范中的实体定义相应方法,实现了对规范文档的读取、解析,并能按照文档内容进行数据抽取、转换和加载。3.基于ETL描述规范及其解析系统,完成了渤海海洋数据仓库中赤潮、海冰、风暴潮等19个主题的数据抽取转换加载。给出了数据格式不一致、数据抽取转换等问题的处理策略。
其他文献
近期,各大市场研究机构纷纷发布2017年手机厂商全球出货量数据,三星蝉联全球手机出货量排行榜冠军.但值得注意的是,由于在高端市场被苹果碾压、在新兴市场受制于迅速崛起的中
汽车安全性是现代汽车的主要性能之一,已成为汽车产品在汽车市场竞争中的关键因素。随着计算机技术的迅速发展,以及虚拟计算机仿真技术的出现,传统汽车被动安全性研究方法得到了
随着房价的水涨船高越来越多的人开始关注房屋的建筑施工,在房屋施工中有两点关键的因素,一个是施工的技术另一个是施工的管理,文章通过分析房屋的质量特点来论述施工技术和施工
与知识型教师相比,智慧型教师更具有创造性、伦理性和实践性特征。创造性是智慧型教师的首要特征;伦理性是教学的内在要求,也是智慧型教师理应体现的特性;实践性是智慧型教师
卢卡奇的《什么是正统马克思主义?》写于1919年3月。在这篇文章中,卢卡奇分析了当时的庸俗唯物主义和马赫主义走向教条主义的方法论缺陷,阐发了马克思辩证法的具体性。卢卡奇
含木质素复合肥是中国科学院土壤研究所与江苏(常州)中东集团有限公司共同研制开发,为了解该产品在太湖流域地区水稻上的使用效果,江苏省宜兴市周铁镇农服中心承担了该项试验,现将