论文部分内容阅读
随着信息化建设的开展,政府加大投资力度进行信息系统建设,以帮助政府进行电子政务处理和管理工作。这些系统的运行,积累了大量的业务数据;但各个系统的业务数据分布在各自的系统中(操作系统、数据库管理系统和数据标准都不相同)。这些数据之间缺乏对应和转换关系,协同能力较差,形成“信息孤岛”。信息虽然可以在本系统中进行流转,但与其他系统的交互性较差。各自孤立运作的系统将会产生大量的冗余数据和造成业务人员的重复劳动,而采用传统点对点的数据交换方式将使得系统的集成费用和维护成本成倍增加。构建公共数据中心成为当务之急。ETL(Extractio、Transform and Load,数据抽取、转换和装载)是构建公共数据中心的关键环节。ETL系统将一个机构的所有的信息资源集成到一个无缝的、并列的、易于访问的数据资产中;这样可使一个功能强大的数据资产运作起来就像一个单一系统。ETL通过建立底层数据交换平台来联系整个部门机构的异构系统、应用、数据源等。该平台用于满足机构内部的业务系统、数据库、数据仓库,以及其它重要的内部系统之间无缝地共享和交换数据的需要。本文以本人参与的上海市浦东新区政府公共数据中心信息系统项目为依托。先分析和设计公共数据中心信息系统,再按照公共数据中心的实际需求,对公共数据中心的ETL工作过程进行设计和实现。首先,鉴于公共数据保密性的特点,设计了数据不同的获取方式。公共数据中心支持在线数据采集,也支持数据从光盘等介质上传到数据中心。其次,在设置数据转换规则的过程中结合相应领域知识,保证数据质量。再次,前置机之间实行负载均衡,保证数据抽取效率,提高系统的可用性和可扩展性。最后,将数据转换的不同步骤分配到两台ETL服务器来完成,保证转换效率。本文主要内容如下:(1)数据仓库技术基本理论;(2)公共数据中心信息系统总体需求分析;(3)公共数据中心信息系统总体设计;(4)公共数据中心信息系统ETL的设计与实现:ETL过程设计、ETL环境准备、ETL实现、ETL测试、异常处理、ETL日常管理。