论文部分内容阅读
随着对国内各厂商对经营分析和决策支持重视程度的加剧,作为经营分析、决策支持、数据挖掘等方面的基础,数据仓库的建设越来越引起人们的重视,数据仓库建设的好坏,直接影响到经营分析、决策支持、数据挖掘的效果。为了更好的支持不同级别、不同业务的经营分析,数据仓库的建设逐渐由集中式转向了分布式。目前,分布式数据仓库建设中存在着很多问题:规则调度、数据传输、一致性维护、即席查询、数据冗余、模型设计,如何更好的解决这些问题,是目前分布式数据仓库设计与实施的重点。 分布式数据仓库调度分为全局数据仓库规则调度和局部数据节点规则调度两个方面,每个方面的建设过程又包括数据采集、ETL、数据展现三个过程,全局数据仓库和局部数据节点之间、过程内部、过程之间存在着复杂的关系。如何设计一个数据调度的方法,如何在保证数据调度正确性的前提下尽可能的提高系统效率,实现并行性,尽可能的利用分布式系统带来的效率优势,是分布式数据仓库调度所要解决的问题。 作者在三年的数据仓库建设中,深入研究了UBIS(United Business Information System)系统规则调度的设计过程,提出了信息与控制分离的设计方案,基于MVC设计模式,作者把整个算法分成了3个部分,模型、视图和控制,有效地实现了信息与控制的分离,模型、视图和控制之间相互联系又相互独立,各个模块的改变并不影响到其它模块,使得整个算法更加灵活,更容易维护。 接下来,作者对UBIS(United Business Information System)系统一致性维护过程进行了深入的研究,归纳和总结了现阶段UBIS一致性维护的整个流程,分析了整个流程的利弊。之后,作者提出了一种基于strobe的分布式数据仓库一致性维护算法,描述了更新检测、操作控制、更新控制、错误处理等关键性问题。为解决分布式数据仓库建设中存在的问题提供了参考。