论文部分内容阅读
随着数字技术和计算机信息化的普及和发展,大多数企业都采用了计算机进行管理和运营。这些计算机系统通常都具有强大的收集、存储和处理数据的能力。生产监控数据、医疗数据、人口统计数据、财经数据和海洋数据等,这些日积月累的数据形成了一个巨大的“宝藏”。随着市场竞争的加剧和信息社会需求的发展,从大量数据中挖掘规律性知识,指导制定生产和营销策略,就显得越来越重要。数据仓库技术正是为此提供解决方案而产生的,也是目前学术界和工业界研究开发的热点问题之一。随着企业对数据仓库的熟悉,数据仓库支持预测分析的能力越来越好地被用来驱动商业决策。然而传统数据仓库是周期性更新的,决策所用的信息和数据并没有包括最新的生产数据和信息,基于传统数据仓库的战略决策在时间的实时性上不能满足要求。随着业务节奏的加快,需要分析的实时数据信息的数量呈爆炸性增长。数据仓库必须有能力支持快速的业务分析,能够将最新信息尽快反映给决策者,使决策者对瞬息万变的商业形势做出快速的反应。因此,实时数据仓库技术随之应运而生。实时数据仓库技术与传统数据仓库有很大的不同,它既要为商业决策提供实时的数据保证,又要提供更快速的查询分析。为此,本文针对实时数据仓库中的实时体系结构建模、更新与查询调度、并行数据仓库查询、并行数据立方构建等关键问题进行了研究。主要工作包含以下几点:(1)设计了实时数据仓库的总体框架结构,并针对灵活可变却又十分重要的实时数据存储区的设计方法进行了研究,包括ODS分区、双镜像交替分区、数据仓库副本分区和多级缓存分区机制等。最后将几种实时数据存储区设计方法进行了对比,分析了各种方法适用的环境。(2)提出一种实时数据仓库中基于优先级的更新查询平衡调度算法PBBS,详细阐述了PBBS算法的系统结构和算法思想。PBBS算法综合考虑了系统中更新任务的优先级、用户查询任务的优先程度、任务队列的实时执行状况、系统资源的使用现况,来进行任务的并行调度。PBBS算法不但能够根据用户需求调整更新与查询的资源分配,也能够合理利用系统资源,保证优先级较高的任务优先被调度执行。不仅减少了重要查询的系统响应时间,而且提高了重要数据的数据新鲜度。(3)提出一种实时数据仓库中的支持QoS的更新和查询调度算法。算法首先提出了实时数据仓库中与查询相关的一些用户交互式QoS参数,然后根据查询的QoS参数要求来进行更新任务和查询任务的实时调度。QoS算法能够根据用户的具体QoS查询需求,合理地调整任务的执行顺序,有效地使用系统资源,为用户查询提供更快速的响应和更高的数据实时性。(4)设计了基于MapReduce框架的关系型数据的并行运算操作,对传统的查询、投影、连接、除、聚集等关系运算基于MapReduce框架进行了设计并实现;并提出一种基于分块结构的分布式关系数据库ChunkDB,详细设计了ChunkDB的整体架构、数据分块方式、数据存放结构、子块分布策略、元数据信息、容错性和可扩展性等方面;最后设计了基于ChunkDB数据库的MapReduce计算方法,对MapReduce框架进行了扩展,使之与ChunkDB很好地兼容,方便高效地进行数据读取。(5)提出一种基于MapReduce框架的并行Dwarf数据立方构建算法。算法首先对传统的单Dwarf立方进行等价划分,将其分割为多个独立的子Dwarf立方;其次算法采用MapReduce架构,对Dwarf立方进行并行地构建、查询和更新。并行Dwarf算法首先能够提供高效的数据立方的建立,其次针对MapReduce机制无索引的顺序扫描机制,Dwarf立方的自索引机制提供了高效的查询;然后并行Dwarf克服了传统Dwarf较低的增量更新性能,为Dwarf的实际应用提供了条件;并且并行Dwarf具有良好的可扩展性,随着数据量的增加,可以通过动态增加结点的方法,有效地提高Dwarf立方的性能。(6)设计并实现了MR-RTDWH原型系统。通过将本文所提出的实时数据体系结构、更新与查询调度、基于MapReudce的关系运算、MapReduce架构与关系数据库的融合、实时数据立方的并行构建等理论和方法在MR-RTDWH系统中的实现,验证了这些理论和方法的正确性和有效性。总之,本文研究了基于MapReduce的实时数据仓库中的相关问题,将MapReduce并行计算框架与实时数据仓库技术相结合,对其中包含的主要研究问题提出了有效的解决方案,理论分析和大量的实验结果证明了这些算法的有效性和高效性。这些算法和模型将对今后实时数据仓库的研究工作打下良好的基础,同时也对数据密集型计算和云计算系统的建设与开发具有一定的参考价值。