论文部分内容阅读
信息作为现代企业的宝贵资源,占据着越来越重要的地位。而数据仓库作为数据信息的载体,旨在通过通畅全面的信息管理,达到有效的决策支持。传统的数据仓库通常以支持企业内部战略性决策为主,而基于营运导向的动态数据仓库则是以提供企业外部战术性决策为主。动态数据仓库是一种创新理念,但是其技术基础和架构思想还是来源于传统的数据仓库。ETL(数据的抽取、转换、加载)作为数据仓库构建的一个十分重要的环节,贯穿于项目的始终,在整个数据仓库中扮演着非常重要的作用。动态数据仓库的出现,对于ETL的实时性方面提出了较高的要求,实时ETL的研究也成为了数据仓库领域研究的一个重点。此外,物化视图作为数据仓库中另一个重要的组成部分,旨在提高数据仓库系统的查询响应,减轻查询的计算压力。物化视图的设计、选取和维护,也是动态数据仓库应用中的研究热点之一。本文作者以某跨国金融公司内部一个大型金融软件系统所采用的动态数据仓库为背景,广泛探讨与剖析了企业级动态数据仓库的架构与实施过程中的各方面问题。介绍了动态数据仓库的体系架构和各个组成部分,对于其中的关键技术进行了系统而深入的研究。对动态数据仓库的实时ETL中的关键技术——实时数据流更新技术,进行了深入研究与分析,提出了一种针对动态数据仓库分布式集群的D-MESHJOIN算法,并通过实验证明该算法在动态数据仓库集群环境中具有良好的性能与扩展性。此外,对动态数据仓库中一种特殊的物化视图——物化样本视图,进行了深入研究与实践,设计了一种新型的基于ACE+树的视图组织结构,该视图结构在已有研究基础上进行改良,解决了以往样本视图不支持动态增量维护的问题,并在实践运用中证明其有效性;同时,针对集群环境中数据表分区的情况,给出了分布式的物化样本视图查询策略。通过对动态数据仓库架构实施、应用研究等一系列研发工作,最终给出了针对性的解决方案。对于类似的企业级动态数据仓库的构建,实时ETL和物化样本视图的实现,具有一定的参考价值与实践意义。