论文部分内容阅读
数据仓库技术是一个面向主题的、集成的、非易失的、随着时间变化的用来支持管理人员决策的数据集合。经营分析对国内各大运营商来说也越来越重要,其中所使用的技术正是数据仓库技术。在数据仓库的实施过程中,ETL的工作量最大,它的工作效率往往也与数据仓库的模型是否合理有着直接的关系。 本文重点讨论了传统数据仓库结构下ETL实施过程中存在的问题,在此基础上对传统数据仓库的模型做了一些改进,并总结一种数据仓库模型分层设计方法,以此来提高ETL的工作效率。然后论述了在分层之后怎样实施数据质量稽核。把数据仓库分成中央数据仓库和集市数据仓库,实则分为两级主题域的设计,中央仓库主题域和集市主题域设计。中央仓库完全是按照企业模型建立的,基本遵守第三范式的原则,没有汇总,没有合并表。而集市数据仓库根据需求来做,结合第三范式和行星模型来设计集市仓库模型,分为基础表和事实表的设计。基础表是为事实表服务的,是对中央数据仓库的汇总、合并。事实表在基础表之上再做简单汇总即可得到。这样,ETL的工作也分为了两部分,即前ETL和后ETL,前ETL的主要工作是源系统到中央数据仓库的映射,这需要熟悉源系统;后ETL的主要工作是中央数据仓库到数据集市的映射,这只需熟悉中央数据仓库和集市模型即可。ETL工作有了明确分工后,ETL工程师可以专注于自己熟悉的工作。同时也给数据质量稽核带来了便利,数据质量稽核可以分层来做,也就比较容易地确定错误发生的位置。 最后,以作者参与的某省电信数据仓库系统的建设为背景,结合数据仓库系统的实施过程,阐述了数据仓库分层模型设计的具体应用,将中央仓库划分为七大主题域,集市数据仓库根据需求划分若干主题域。结合自己的主要工作重点,介绍了集市仓库具体建模过程和具体的数据质量稽核过程。