基于Hadoop的Teradata数据仓库日志分析系统的设计与实现

被引量 : 0次 | 上传用户：DirtySnow

【摘要】

：

eBay公司使用Teradata企业级数据仓库解决方案来管理业务数据,将分布在企业网络中各个信息孤岛上的数据集成在一起,提供全面的业务分析服务以及支持决策的信息。随着业务分析

【作者】

：

董妍妍

【发表日期】

：

2014年期

【关键词】

：

DBQL Parser系统大数据处理 Teradata Hadoop Cascading

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

eBay公司使用Teradata企业级数据仓库解决方案来管理业务数据,将分布在企业网络中各个信息孤岛上的数据集成在一起,提供全面的业务分析服务以及支持决策的信息。随着业务分析需求的日益复杂,各个主题域中的分析对象日益增多,数据仓库系统中需要构建的相应的数据表的数量也在急速增长。同时,数据仓库记录历史数据以反映发展历程和未来趋势这一特性,又使得每张数据表的数据量随时序增长。海量的数据存储占据着PB级的系统空间,复杂的数据查询消耗着极高的CPU资源。因此,掌握数据仓库系统中数据表之间的关系,根据数据流的特征判断数据表的使用情况,能够有效的帮助系统管理人员及时清理系统空间,减少数据冗余,降低数据处理成本。本文主要描述了基于Hadoop的Teradata数据仓库日志分析系统(以下简称为DBQL Parser日志分析系统)的设计与实现。DBQL Parser日志分析系统将Teradata数据仓库中记录用户数据查询日志的系统数据表作为分析对象,根据数据量和处理时效性等需求,将数据从Teradata数据仓库中抽取并加载到HDFS,采用Hadoop计算平台进行分布式并行处理。根据分析对象数据表的特征和处理方法,采用基于Hadoop的Cascading框架,构建管道链接形式的数据处理流程。依赖于Teradata SQL Parser API对日志中的查询语句Query Text进行Tokenize分词操作,提取用户创建、删除、数据插入或更新的目标数据表Target Table,再通过日志中其他部分的数据关联到该Target Table的数据源表Source Table,从而为数据仓库中的每一张数据表找到其上下游。同时,系统从日志中解析出记录查询脚本执行计划的相关信息,辅助对数据表的管理。本文在概述了DBQL Parser日志分析系统的项目背景、当前国内外大数据处理技术的发展现状以及系统开发使用到的Teradata数据仓库、Hadoop计算平台、Cascading框架以及Maven技术综述之后,着重对系统进行了需求分析和概要设计。本文从系统待分析的目标数据表以及获取数据表之间关系的功能点入手,通过需求列表的方式描述了对Query Text进行预处理、识别目标数据表Target Table源数据表Source Tab le、处理别名指代对象、解析Query Band等功能需求,以及任务调度、数据容量、处理时间等非功能需求。进而使用系统用例图定义了系统执行的不同行为,并对关键用例进行了详细描述。在概要设计部分,本文通过系统体系结构图和系统模块图说明了系统分层体系结构和模块化的设计思想,详细描述了各个层次、模块的功能职责以及依赖关系。本文在对DBQL Parser日志分析系统进行需求分析和概要设计之后,重点描述了系统任务调度模块、Build Cascading处理流管理模块以及Query Log Analyser日志分析模块的详细设计和具体实现过程。在系统任务调度模块中,对系统任务调度图加以详细解说,描述了系统任务的划分和自动化执行方法。在Build Cascading处理流管理模块中,详细设计类图表明了各个类之间的依赖关系,数据处理流程图展示了管道链接的逻辑过程,同时通过代码阐述了建立管道处理流和操作方法的实现。在Query Log Analyser日志分析模块中,重点描述了别名处理的算法,并给出了获取Target Table口解析Q uery Band的实现代码。目前,本文中阐述的DBQL Parser日志分析系统已经应用到实际之中。eBay Teradata数据仓库系统每天生成约30G大小的数据查询日志,如果使用单机对日增量数据进行处理,则至少需要40个小时,而部署在eBay Ares Hadoop集群上的DBQL Parser日志分析系统将运行时间缩短至0.5个小时,极大的提高了项目的可行性和时效性。同时,该系统的数据分析结果反映了数据表之间的关系、查询的调度计划等信息,有效的帮助了数据仓库系统管理员了解数据表的使用情况,实现对系统存储空间的管理。

其他文献

孩子经常使用手机易患脑瘤

<正>儿童经常使用手机,成年后患上脑瘤的几率会比常人高出50%以上。专家表示,这一研究显示,脑瘤可能会成为今后的"流行病"。

期刊

使用手机神经胶质瘤

医托泛滥成灾，原因何在?

前不久,北京市东城警方出动百余民警,对协和、同仁、妇产和北京中医医院的号贩子、医托进行突袭。行动中警方共抓获医托、号贩子42人。据悉,对于这些被抓的医托、号贩子,首次

期刊

严厉打击卫生部医疗资源配置看病难

杉木枫香混交造林效果研究

杉木枫香混交造林效果调查研究表明，杉木与枫香2：1行状混交种间关系协调，林分空间分布格局合理，混交林分生长量和生产力较高，混交林林分的蓄积量、生物量分别比杉木纯林提高了50.7

期刊

枫香杉木混交林造林效果

郑州地铁盾构下穿施工对既有建筑桩基承载力的影响研究

随着城市化进程的进一步发展,城市环境中高层建筑、高架桥梁等建(构)筑物云集,而它们大多都采用的是桩基础的形式,由于受到地下空间、线路选线等的限制作用,在隧道开挖时将不

学位

盾构隧道桩桩长桩弹性模量桩顶荷载施工参数工程措施

夯实高效化学课堂之根,彰显学科核心素养之魂——以“水的电离和pH”为例的教学设计

以"水的电离和pH"的教学设计为例,创设真实情境,以DIS实验为载体,通过问题引导、数据分析、归纳总结、拓展迁移等教学策略提高课堂效率,落实化学学科核心素养。

期刊

化学核心素养高效课堂教学设计

单性别高等教育与女性成长——基于美国女子学院的研究

美国女子学院是创立并实践单性别高等教育的主要载体,在美国高等教育历史和体系中居于重要地位。美国的知名女子学院不仅拥有毕业生成功比例显著高于男女生混合高校的纪录,对

期刊

单性别高等教育女性成长美国女子学院

医学中专生网络成瘾分析

目的探讨医学中专生的网络成瘾及其相关因素,为采取积极有效的干预措施提供参考依据。方法依据Young氏网络成瘾的诊断标准,采取整群抽样的方法,对1203名在校医学中专生的个人

期刊

医学中专生网络成瘾调查分析

氢氧化铝佐剂研究进展

氢氧化铝佐剂作为疫苗佐剂己有近80年的历史。其由于高吸附能力及对某些抗原具有较好的吸附性而优于其它佐剂,它也是唯一被美国FDA认证的人用疫苗佐剂,虽然氢氧化铝佐剂应用

期刊

氢氧化铝佐剂纳米佐剂研究进展

阳离子聚丙烯酰胺:粉煤灰改良膨胀土剪切试验

利用阳离子聚丙烯酰胺-粉煤灰掺和物改良膨胀土。试验研究了阳离子聚丙烯酰胺-粉煤灰掺和物改良膨胀土的抗剪切强度,结果表明,掺和物可以有效增强膨胀土的抗剪切强度。当膨胀

期刊

膨胀土阳离子聚丙烯酰胺粉煤灰改良剪切强度

天然岩沥青改善道路石油沥青机理研究

随着公路交通量的增加和对路面耐久性要求的提高，改性沥青在我国道路工程中应用越来越多，掺加天然岩沥青是改性方法之一。为了研究天然沥青改性普通沥青性能的内在机理和原因，本

期刊

石油沥青天然岩沥青道路沥青路面耐久性化学组成化学结构

基于Hadoop的Teradata数据仓库日志分析系统的设计与实现

其他学术论文