企业环境下分布式数据仓库的设计与优化技术的研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:pz421769788
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入新世纪以来,在互联网、物联网技术的带动下,企业可获得的数据量也越来越大。企业对数据的需求也不再只针对日常的事务处理,很多企业开始构建大型的数据仓库来存储和分析面临的海量数据。数据仓库收集不同来源和不同结构的用户数据,并把这些数据按主题进行分类和集成,使得对同一主题的数据的分析结果更有针对性和可靠性,对管理人员的决策也更有参考价值。目前传统集中式的数据仓库由于在扩展性和性能方面的不足,已开始无法承受对海量数据的处理压力。Hadoop的兴起使人们认识到分布式技术的强大计算能力,分布式架构的数据仓库将成为未来数据仓库系统的发展方向。针对这种情况,本文从数据仓库的分布式架构设计、元数据的统一管理、数据仓库技术与Hadoop开源框架相结合三方面做出分析和设计。结合Hadoop开源框架、My SQL数据库、分布式存储技术、impala并行查询技术,设计了一套完整的系统架构方案。以MapReduce任务的方式完成对源数据的集成,即ETL(Extract-Transform-Load)工作。在元数据管理方面,研究了数据仓库系统的元数据管理机制,以及impala查询引擎的元数据实现方案,设计和实现了基于MySQL的集中式元数据管理模块。该系统首先通过MapReduce任务对源数据进行抽取和转换,将中间结果数据按照用户指定的数据切分方式进行数据的分布式划分,之后进行并行导入;由MySQL数据库以lib的形式存储和管理系统的元数据;存储部分使用一种高效单机存储引擎,实现各存储节点对数据的高效存储和扫描;数据的查询通过impala并行查询引擎实现,查询与存储共用一套元数据方案,实现了元数据信息的统一管理。通过该系统,企业用户不仅可以实现海量数据的高效管理,也可对数据进行多维分析处理,为企业策略的指定和调整提供数据支持。最后,通过实验测试分布式系统的导入和查询性能,通过对测试结果的分析说明该系统在处理企业数据方面是有效的。
其他文献
黄芩苷为中药黄芩(Scutellaria bailensis Georgi)的活性代表成分,其在抗病毒及抗菌方面的显著作用亦日益受到关注。牛病毒性腹泻病毒(Bovine Viral Diarrhea Virus,BVDV)可引起牛病毒性腹泻-粘膜病(Bovine Viral Diarrhea disease,BVD),在我国牛群中阳性检出率高达90.0%,死亡率高达50%,给养牛业造成巨大经济损失
随着我国逐渐的走进了网络时代,在这个时代中网络在人们的日常生活中越来越重要,现阶段我国人们的生活、工作都离不开网络。而随着网络影响的不断深入,我国的动画设计也不仅
对预旋系统内的压力变化相关研究较少。基于理论分析、实验测量以及数值计算,对某盖板式预旋系统的压比及熵增特性进行研究。通过理论推导,对预旋系统内压比与无量纲温降的关
1.前言当前,我国高校公共计算机机房越来越多,规模也越来越大,而且大多数公共机房都连入了校园网,实现了与 Internet 的连接,并提供上网服务。学校既要满足学生课内上机的需
论文以磷石膏(PG)为原料,D-葡萄糖酸钠(SG)为相转移剂,采用“相转移-沉淀法”,分别进行了由磷石膏制备球形、棒状和方块状形貌碳酸钙的工艺条件研究,并初步探讨了相转移剂、晶形控制剂以及工艺条件对碳酸钙形貌的影响及其成核、生长的作用机制。主要研究工作和结论如下:(1)由磷石膏制备球形碳酸钙以CO_2为沉淀剂,NaOH为pH调节剂,制备球形碳酸钙,筛选并确定较适宜的晶形控制剂为STP,所确实较适宜
随着网络技术的迅速发展,互联网资源也越来越丰富。然而,伴随而来的也有信息过载问题。大数据时代要求信息处理要高效、快捷,但是传统方式如搜索引擎等尚存在诸多缺陷,正因为
目的:检测呼吸道感染患者九种病原体和氧化应激指标,统计分析其感染现状、流行特征及其与氧化应激的关系,为临床诊疗提供参考依据和新思路。方法:收集2014年1月—2014年12月
唇裂手术评估是术式改进的重要基础。本文从常用唇裂手术评估方法的适用性介绍,到评估结果在改进唇裂手术方法和技能中的应用,最终提出了评估与术式改进是一个复杂的系统工程
舵机作为伺服控制系统的重要部件,其性能的优劣直接影响伺服系统的整体性能。电动舵机以其结构简单、可靠性高、体积小等特点成为目前研究的热点。随着电力电子技术和永磁电机的发展,高功率密度、体积小巧、结构简单、控制灵活的新型的永磁无刷直流电机在火箭、飞机、导弹等飞行器领域得到了广泛应用,同时对飞行器控制系统的高可靠、高灵敏度、高精度等性能要求越来越高。本文以高性能的数字信号处理器为控制单元,采用现代智能控
无线传感网通过大量传感器节点通过无线自组织的方式组成网络,将感知数据通过无线多跳方式沿传感器节点形成的路径传输到汇聚节点(也称sink节点),再由sink节点发送给控制中心