论文部分内容阅读
随着企业信息化进程的加速和经济全球化给企业带来的竞争压力不断加剧,越来越多的企业想要构建自己的数据仓库系统,整合企业大量的、分散的、杂乱无章的数据,期望从中发现对企业经营有益的信息,为企业的战略决策提供支持,从而提升企业的竞争力。基于强烈的现实需要,和成功数据仓库项目所带来的巨大效益和影响,对数据仓库的研究在学术界和工业界得到蓬勃的发展。目前,数据仓库技术已经成为计算机研究领域的一个热点,在金融、通信、大型零售等行业也已经得到了广泛的应用。
数据准备是构建数据仓库的基础,也是数据仓库项目能否成功的关键。由于用于数据准备的数据源来自不同时期、不同硬件平台、不同的操作背景,其中隐含着大量的“脏数据”。如何在数据准备的过程中对数据质量进行有效的控制?对ETL流程进行改造,设计一个灵活、简洁、功能强大的能对各种数据质量问题进行有效控制的数据质量分析系统具有重要的意义。
本文的主要研究工作和成果如下:
(1)对ETL和数据质量分析的相关理论进行了阐述和分析,重点探讨了其中的元数据管理、数据质量分析方法、知识库管理等相关理论。
(2)研究并设计了一个具有简洁性、灵活性和可扩展性的ETL架构。该架构中包含数据抽取过滤功能和数据质量控制器功能;包含的数据清洗缓冲区支持多次清洗,可以有效地提高数据清洗的质量;包含灵活、便捷的对数据清洗方案的自动生成和人工编辑手段,可以有效地应对可预见的但未曾处理过的数据质量问题。
(3)开发并实现了一个基于新架构的ETL工具(Prophet ETL Designer)。该工具在应用实现上体现了它的简洁、易用性;在流程控制上,体现了ETL流程对数据的灵活控制:在数据质量控制上,为用户提供了一个灵活、方便、功能强大、性能优越的数据质量管理机制。
(4)介绍了在构建先知型数据质量分析系统过程中涉及到的关键技术,包括:数据质量的分析方法、元数据存储库的设计和数据清洗方案的生成机制。
本文的主要创新点在于提出并设计了一个先知型数据质量分析架构,并在此基础上实现了先知型数据质量分析系统。该架构是对主流ETL架构的改进,在数据质量控制的功能、性能、灵活度方面有显著的提高,可以有效处理可预见的但未曾出现过的数据质量问题,达到“先知”的目的。