基于MapReduce架构的实时数据仓库关键技术研究

被引量 : 5次 | 上传用户:znzlwzkp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字技术和计算机信息化的普及和发展,大多数企业都采用了计算机进行管理和运营。这些计算机系统通常都具有强大的收集、存储和处理数据的能力。生产监控数据、医疗数据、人口统计数据、财经数据和海洋数据等,这些日积月累的数据形成了一个巨大的“宝藏”。随着市场竞争的加剧和信息社会需求的发展,从大量数据中挖掘规律性知识,指导制定生产和营销策略,就显得越来越重要。数据仓库技术正是为此提供解决方案而产生的,也是目前学术界和工业界研究开发的热点问题之一。随着企业对数据仓库的熟悉,数据仓库支持预测分析的能力越来越好地被用来驱动商业决策。然而传统数据仓库是周期性更新的,决策所用的信息和数据并没有包括最新的生产数据和信息,基于传统数据仓库的战略决策在时间的实时性上不能满足要求。随着业务节奏的加快,需要分析的实时数据信息的数量呈爆炸性增长。数据仓库必须有能力支持快速的业务分析,能够将最新信息尽快反映给决策者,使决策者对瞬息万变的商业形势做出快速的反应。因此,实时数据仓库技术随之应运而生。实时数据仓库技术与传统数据仓库有很大的不同,它既要为商业决策提供实时的数据保证,又要提供更快速的查询分析。为此,本文针对实时数据仓库中的实时体系结构建模、更新与查询调度、并行数据仓库查询、并行数据立方构建等关键问题进行了研究。主要工作包含以下几点:(1)设计了实时数据仓库的总体框架结构,并针对灵活可变却又十分重要的实时数据存储区的设计方法进行了研究,包括ODS分区、双镜像交替分区、数据仓库副本分区和多级缓存分区机制等。最后将几种实时数据存储区设计方法进行了对比,分析了各种方法适用的环境。(2)提出一种实时数据仓库中基于优先级的更新查询平衡调度算法PBBS,详细阐述了PBBS算法的系统结构和算法思想。PBBS算法综合考虑了系统中更新任务的优先级、用户查询任务的优先程度、任务队列的实时执行状况、系统资源的使用现况,来进行任务的并行调度。PBBS算法不但能够根据用户需求调整更新与查询的资源分配,也能够合理利用系统资源,保证优先级较高的任务优先被调度执行。不仅减少了重要查询的系统响应时间,而且提高了重要数据的数据新鲜度。(3)提出一种实时数据仓库中的支持QoS的更新和查询调度算法。算法首先提出了实时数据仓库中与查询相关的一些用户交互式QoS参数,然后根据查询的QoS参数要求来进行更新任务和查询任务的实时调度。QoS算法能够根据用户的具体QoS查询需求,合理地调整任务的执行顺序,有效地使用系统资源,为用户查询提供更快速的响应和更高的数据实时性。(4)设计了基于MapReduce框架的关系型数据的并行运算操作,对传统的查询、投影、连接、除、聚集等关系运算基于MapReduce框架进行了设计并实现;并提出一种基于分块结构的分布式关系数据库ChunkDB,详细设计了ChunkDB的整体架构、数据分块方式、数据存放结构、子块分布策略、元数据信息、容错性和可扩展性等方面;最后设计了基于ChunkDB数据库的MapReduce计算方法,对MapReduce框架进行了扩展,使之与ChunkDB很好地兼容,方便高效地进行数据读取。(5)提出一种基于MapReduce框架的并行Dwarf数据立方构建算法。算法首先对传统的单Dwarf立方进行等价划分,将其分割为多个独立的子Dwarf立方;其次算法采用MapReduce架构,对Dwarf立方进行并行地构建、查询和更新。并行Dwarf算法首先能够提供高效的数据立方的建立,其次针对MapReduce机制无索引的顺序扫描机制,Dwarf立方的自索引机制提供了高效的查询;然后并行Dwarf克服了传统Dwarf较低的增量更新性能,为Dwarf的实际应用提供了条件;并且并行Dwarf具有良好的可扩展性,随着数据量的增加,可以通过动态增加结点的方法,有效地提高Dwarf立方的性能。(6)设计并实现了MR-RTDWH原型系统。通过将本文所提出的实时数据体系结构、更新与查询调度、基于MapReudce的关系运算、MapReduce架构与关系数据库的融合、实时数据立方的并行构建等理论和方法在MR-RTDWH系统中的实现,验证了这些理论和方法的正确性和有效性。总之,本文研究了基于MapReduce的实时数据仓库中的相关问题,将MapReduce并行计算框架与实时数据仓库技术相结合,对其中包含的主要研究问题提出了有效的解决方案,理论分析和大量的实验结果证明了这些算法的有效性和高效性。这些算法和模型将对今后实时数据仓库的研究工作打下良好的基础,同时也对数据密集型计算和云计算系统的建设与开发具有一定的参考价值。
其他文献
在分析放大电路的性能时,输入和输出电阻是两个极为重要的指标,应用戴维宁定理分析放大电路的输入和输出电阻,逻辑性强,思路清晰、方法简便。
本文针对基于机器视觉的花样绣花机进行研究,为获取适合皮革材料边缘提取的图像,基于机器视觉系统选型原理,搭建硬件平台。建立摄像机模型,通过摄像机标定的方法,消除图像畸变,同时
由于我国资本市场尚存在缺陷,上市公司的内部治理机制也不够完善,使得上市公司有现金流闲置或投资于风险超过企业承受水平的非效率投资行为非常普遍。非效率投资不仅会影响企
将超声波技术引入到废旧锌锰电池的浸出过程中以强化锰的浸出。利用单因素实验研究了超声波功率、硫酸浓度、反应温度、液固比对锰浸出率的影响,确定了超声波强化浸出锰的较
分析了我国电线电缆行业的发展趋势,介绍了我国电缆料产品的构成,预测了未来几年我国主要电缆料的市场需求,指出了我国电缆料行业的发展方向。
经济、市场一体化进程的不断推进,给我国企业的发展提供了一定的源动力,但是,经济的高速发展也使企业间的竞争日益激化,企业经营活动过程中的风险越来越突出,特别是财务活动
索洛模型和萨默斯模型存在局限性,在建立效率工资一般模型时,应当同时考虑到绝对工资水平、相对工资高低和失业率对工人劳动效率的影响。效率工资机制依赖于两个必要条件:间
龚六堂和邹恒甫曾肯定地认为,价格水平决定的财政理论是个无法检验的理论,但我们研究后发现,他们之所以得出无法检验的结论,是因为他们是基于跨期预算方程是均衡条件来定义的
在我国人口步入老龄化进程中,最突出的问题是高龄老人所占老年人口比重迅速上升.人口高龄化问题不仅牵扯出社会问题,也牵扯出政治、经济、文化等诸多领域,关系到国计民生的重