基于Spark的联机分析处理的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lee_liuyun02
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联机分析处理系统使决策者能对企业的历史数据进行多维分析,为企业发展做出更好的决策。依托于分布式计算框架实现的关系型联机分析处理系统中,多表连接是影响联机分析处理系统性能的关键因素。研究如何根据用户的使用习惯,重用耗时的多表连接结果的方法,对关系型联机分析处理系统整体性能的提高,具有重要意义。在分析了基于分布式内存计算框架Spark的联机分析处理系统的设计要求的基础上,通过对比现有联机分析处理系统的体系结构,给出了基于Spark的联机分析处理系统的体系结构。该结构可以划分为应用层、驱动层、服务器层、计算层和存储层;其主要的功能模块包括维度表处理模块、事实表处理模块和多维分析执行模块等。在多维分析处理方面,使用Spark处理维度表和事实表时都只读取与此次查询有关的列,减少分布式计算框架Spark计算的数据总量;对维表进行按层次的编码处理,通过将有层次信息的层次编码替换事实表的外键,生成有层次信息的编码事实表;使用Spark可重用工作数据集的特性,将有层次信息的编码事实表缓存起来,使接下来的多维分析可重用有层次信息的编码事实表,有效的减少了联机分析处理中的多表连接操作。对比实验表明,基于Spark的联机分析处理系统在连续执行涉及维度相同的多维分析语句时,能够很好的重用维度表和事实表的连接结果,在整体执行效率方面与基于Hive和基于Spark SQL的联机分析处理系统相比较有一定的提高。
其他文献
MD5作为在计算机安全领域常用的哈希函数,其安全性接受着极大的考验。在我国的密码学专家王小云教授提出模减差分攻击有效攻破MD4,MD5,SHA-0等一系列哈希函数之后,MD5攻击取
随着企业之间竞争的加剧,信息快速、准确的传递变得越来越重要了。车间的管理在企业中占据了越来越重要的地位。如何有效地管理车间,使信息能快速有效的传递,已成为信息管理
随着网络信息资源的急剧膨胀,如何从中抽取出潜在的、有价值的信息,进而充分有效地利用Web信息资源,是当今信息领域重要又极具挑战性的研究课题。而对Web社区发现的研究具有
超分辨率技术可用于将监控视频中多幅低分辨率车牌图像合成一幅高分辨率车牌图像,达到增强图像质量的目的。在图像增强领域,超分辨率重建已成为一个热门研究课题。重点研究了
随着计算机技术的不断发展,个人电脑的处理能力及存储能力都有了显著提高,与此同时,宽带接入也随着接入技术的不断完善迅速在互联网用户中普及,这些技术进步促使了在视频会议领域
J2EE是公认的最好的平台,不仅在于它具有JAVA很好的跨平台的优势,更因为J2EE定义了一整套规范的技术标准,如JSP,SERVLET,EJB等。研究如何在此平台下开发好的软件系统是很有意义的,
嵌入式GIS软件是最新的GIS开发技术,也是GIS的一个主要技术发展方向,目前在国内外日益得到广泛的应用。本论文研究的目的是以基于嵌入式GIS技术,结合GPS和个人掌上电脑(PDA)开发的电力移动巡检系统来说明嵌入式GIS在信息管理系统中的运用。该系统由桌面管理、移动巡检和数据转换三个部分组成,实现了对电力巡检信息的采集、传输和查询,巡检任务的拟订、派发和巡检人员的管理。通过运用嵌入式GIS,提高
Web应用框架是支持Web应用开发的重要软件复用技术,旨在提高开发效率,增强系统的可重用性、健壮性和可伸缩性。目前的Web应用框架大都侧重封装底层的技术细节,复用粒度较小,在可
目前,现有的搜索引擎虽然采用各种方法来提高检索结果的精度,但相关文档和不相关文档仍然相互混杂,给用户带来了负担。将搜索引擎返回结果进行聚类,将其分成若干个簇,同一簇
以Internet为标志的嵌入式系统正处于迅速发展的阶段,很多嵌入式设备都在尝试着接入Internet。随着单片机处理器技术的提高,要求应用程序划分成不同的独立的任务模块,保证对实时