从传统架构IOE到Hadoop云平台的应用迁移研究与实现

来源 :北京邮电大学 | 被引量 : 10次 | 上传用户:my_zq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“大数据”时代的来临,企业的数据量以成倍的速度增长,企业使用传统架构IOE (IBM小型机,Oracle数据库以及EMC存储组成的大型商用数据库系统)对数据进行统计分析。如今,IOE架构在企业数据量达到一定程度后出现了磁盘IO瓶颈、计算瓶颈、带宽瓶颈。而Hadoop云平台对这些问题提出了解决方案。它采用HDFS用于数据的存储管理,并行计算框架MapReduce用于数据的计算,以及计算向数据移动的思想减轻网络带宽的压力。当企业选择Hadoop云平台对数据进行分析统计时就需要将原本运行于IOE架构下的应用迁移到Hadoop云平台。本论文针对ETL应用迁移提出了解决方案,并且在某企业ETL应用从IOE架构迁移到Hadoop云平台的项目中得以实践。本课题研究的主要内容包括:1、 ETL应用的迁移。包括:关系型数据库表到Hive数据仓库表之间的数据迁移程序开发,服务器与HDFS之间日志文件传输程序开发,将ETL工具IBM WebSphere DataStage导出的结构化XML配置文件解析为Hive脚本的应用程序开发,将ETL工具E-transform的半结构化函数式配置文件解析为MapReduce序列化文件的应用程序开发,Hive脚本解析程序开发。2、Hadoop云平台及Hive应用的优化。包括:Linux相关参数以及Hadoop相关参数的配置规则研究,编写高效Hive ql语句的规则研究,Hive ql语句优化前后的性能比较以及原理分析,运行在Hadoop云平台与IOE架构下应用的性能比较分析。3、Hadoop单个Job监控程序的开发。通过调用Hadoop API收集Job的信息,通过列表的形式展示Job的基本信息,并对Job资源的使用情况进行可视化。
其他文献
词汇作为语言学习的基础,在听、说、读、写这四大语言技能中,都占据着重要地位;词汇学习对于语言学习者来说也一直是一项困难的任务和过程,尤其对中国的外语学习者来说,习惯了传统
他汀类药物是临床上治疗高胆固醇血症的主要药物。研究发现他汀类药物具有抗肿瘤作用。实验室研究显示他汀类药物可抑制多种肿瘤得增殖,如乳腺癌、结肠癌、胰腺癌、白血病、恶
<正>在近段时间的物理竞赛题目中,变换的推导题型日益突出,体现了现阶段教学对于学生思维的连贯性、发散性要求的提高.这种题型的特点是:以题设的某种物理状态作为基准,对其
在当今的技术领域,大数据是个热门的IT流行词语。为了减轻处理大量数据时的复杂度, Apache开发了Hadoop——一个可靠的、可扩展的分布式计算框架。Hadoop分布式架构能够轻松
以郁金香品种金奖章为试验材料,采用二因素随机区组设计,研究不同光照和花朵处理方式对郁金香种球繁育的影响。结果表明,全光照、花朵透色时摘除花蕾的处理产生的籽球总质量
抗生素滥用导致“超级细菌”的问题成为人们关注的焦点,但耐药结核分枝杆菌的危害性堪比“超级细菌”。我们对2010年1月至2012年8月全部新发及复治的首次痰培养结核分枝杆菌阳
有认知活动,就会有错误发生。在学生认知过程中,只要教师引导得当,往往会转变成有效的学习“催化剂”,能帮助教师了解学生的认知特点和认知水平,调整教学思路,生成新的教法,