论文部分内容阅读
随着“大数据”时代的来临,企业的数据量以成倍的速度增长,企业使用传统架构IOE (IBM小型机,Oracle数据库以及EMC存储组成的大型商用数据库系统)对数据进行统计分析。如今,IOE架构在企业数据量达到一定程度后出现了磁盘IO瓶颈、计算瓶颈、带宽瓶颈。而Hadoop云平台对这些问题提出了解决方案。它采用HDFS用于数据的存储管理,并行计算框架MapReduce用于数据的计算,以及计算向数据移动的思想减轻网络带宽的压力。当企业选择Hadoop云平台对数据进行分析统计时就需要将原本运行于IOE架构下的应用迁移到Hadoop云平台。本论文针对ETL应用迁移提出了解决方案,并且在某企业ETL应用从IOE架构迁移到Hadoop云平台的项目中得以实践。本课题研究的主要内容包括:1、 ETL应用的迁移。包括:关系型数据库表到Hive数据仓库表之间的数据迁移程序开发,服务器与HDFS之间日志文件传输程序开发,将ETL工具IBM WebSphere DataStage导出的结构化XML配置文件解析为Hive脚本的应用程序开发,将ETL工具E-transform的半结构化函数式配置文件解析为MapReduce序列化文件的应用程序开发,Hive脚本解析程序开发。2、Hadoop云平台及Hive应用的优化。包括:Linux相关参数以及Hadoop相关参数的配置规则研究,编写高效Hive ql语句的规则研究,Hive ql语句优化前后的性能比较以及原理分析,运行在Hadoop云平台与IOE架构下应用的性能比较分析。3、Hadoop单个Job监控程序的开发。通过调用Hadoop API收集Job的信息,通过列表的形式展示Job的基本信息,并对Job资源的使用情况进行可视化。