并行ETL工具可扩展技术的研究和开发

被引量 : 6次 | 上传用户:yulong19841001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
ETL工具负责从分布的、异构数据源中抽取数据并对其进行清洗和转换,最后装载到数据集市或数据仓库中,是数据挖掘和联机分析处理的基础。ETL工具通常提供了一些常用的基本操作,但是由于ETL应用场景多样、操作逻辑复杂,这些通用操作往往并不能满足用户的需求,这就要求ETL工具必须具有一定的可扩展性,以满足各种特殊需求。同时,在大数据时代,ETL工具通过整合云计算技术以处理海量数据。传统ETL工具通过集成并行ETL工具Hive和Pig的方式来弥补大数据处理方面的不足,但是存在商用工具价格高昂而开源工具集成度不够的问题,因此,较好地集成Hive和Pig以实现功能的扩展非常重要。另一方面,ETL流程作为一个逻辑计划,在解析成物理计划的过程中需要根据优化规则进行一系列的优化,而优化规则并不是一成不变的,在ETL工具的使用过程中,新的优化规则会被总结出来,因此,还需要使优化规则具有较高的可扩展性。本文开发基于Hadoop的、B/S模式的并行ETL工具,并研究如何实现对并行ETL工具进行扩展,完成了如下几项主要工作:通过分析MapReduce并行计算框架的实现细节,设计实现了两种方案来向现有工具中嵌入定制的MapReduce代码以完成功能扩展从而可以处理复杂的需求。通过分析总结Hive和Pig脚本语言的语法特点,结合实际应用需求,选取了一整套基本操作,并针对性地将基本操作设计为功能组件,然后通过分析基本操作间的依赖关系设计和实现了流程解析模块,解析出来的脚本拥有和手工编写的脚本一样的逻辑。这种集成方式扩展了并行ETL的功能,同时保证了系统能够提供一个统一的图形用户界面。通过分析开源ETL工具Hive和Pig的优化规则实现机制,设计实现了自己的优化规则实现机制。实现上是通过将规则需要匹配的样式和对应的操作关联起来,将规则的匹配机制和计划的游走机制进行隔离和抽象。基于这种设计方式,可以很方便地扩展优化规则。
其他文献
在建筑工程行业发展进程中,经济管理至关重要,作用显著。本文意在通过分析在建筑经济管理中引入先进的全过程工程造价的管理理念,明确它的重要性和各环节的应用,以提高建筑工
随着物联网技术的快速发展,物联网技术被投入到许多领域的应用中,利用物联网技术进行监控也在各领域大幅推广。在诸如交通、农业、航空等领域中,物联网技术充分体现了其自动
本文首先通过新发现于莫高窟第359窟的供养人画像题记的释读,表明该洞窟为吐蕃统治时期粟特九姓胡人石姓家族营建的功德窟。再结合当时的历史背景,就供养像所反映的服饰新现
私营企业是社会主义市场经济的重要组成部分。因此 ,对私营企业进行现代化管理 ,即改建私企自身的产权、管理和用人制度 ,引导私企向股份合作制方向发展 ,不仅加快了私营企业
泰国对于东盟其他国家来说,属于较早取得国家独立的国家。自从国家独立以来,一直奉行自由市场经济的政策,同时推行经济私有化及贸易自由化,实施经济自由化战略和对外开放政策。早
<正> 目睹惨剧:惊恐过后是清醒今年3月,在纽约著名的贾维兹展览中心举办的以"让艺术提升我们的精神"为主题的艺术展,其中编号为1313摊位上展出的是一幅此次艺展中最扣人心弦
作为导游员同游客交流思想,向游客传播文化知识的一种必要的媒介,导游词发挥着极其重要的作用。而如何向广大外国游客准确地传达旅游资料中蕴含的信息,从而吸引更多的游客,则
介绍了上海电机厂使用自制的汽轮发电机气隙测量器测量汽轮发电机的气隙,方法简便,测量精确。
<正>成立于1991年的珠海格力电器股份有限公司是目前全球最大的集研发、生产、销售、服务于一体的专业化空调企业,2008年实现销售收入420.32亿元,净利润19.67亿元,连续八年上
随着搭载Android系统的智能移动终端的快速发展,基于Android平台的应用开发也呈井喷式出现。然而,由于Android系统上应用的开发大都采用Java语言实现,Java语言对代码保护的天