企业级分布式数据集成平台的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:kfk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代企业中,数据的分析处理等工作往往需要大量的数据抽取、转换和加载(Extract,Transform and Load,ETL)等工作,ETL是数据集成的一种主要解决方案。本论文来源于公司的实际研发项目,由于企业现有的ETL系统存在单机宕机和功能复杂的问题,为解决ETL作业中的宕机和难以使用的问题,本文设计实现一个ETL的数据集成系统,将企业内部各种应用数据集成到一起,供数据分析使用;数据分析的结果,也通过本系统以接口的方式对外提供服务。在ETL数据处理的过程中,面临着数据源多样性、数据的不规范和任务执行过程中的系统稳定性等问题,本文采用分布式架构的设计理念,将系统分成三个基础服务;利用Spark平台的大数据处理能力,Kafka的异步解耦能力及搜索引擎ES的数据查询能力,对ETL作业过程进行了异步解耦,优化数据抽取方案,解决数据处理难题,实现了一个具有可扩展性的分布式ETL数据集成平台。其主要工作内容如下:(1)需求分析与架构设计:对ETL作业作了需求分析,并进行了分布式架构设计;考虑到服务生命周期的不一致,将系统解耦为三个基础服务,详细阐述了解耦的原理及三个服务间的关系;(2)三大基础服务详细设计实现:本部分主要详细解释了任务调度器、执行引擎和监控系统三个基础服务各自的设计与实现。其中任务调度器实现了ETL任务的管理、状态更新,包括任务的DAG解析等;而执行引擎将经过DAG图解析后的Job任务缓存执行;监控系统负责ETL执行过程中的数据源、目标源和执行渠道的监控与智能决策;(3)工程测试:部署了测试环境,分别进行了单元测试、集成测试、分布式部署测试和算法测试。项目采用敏捷开发模式,目前已完成了整体的架构设计和两次的迭代开发。执行引擎部分,完成了针对普通任务的Spark集群方式和定时任务的多线程渠道方式的开发,已经测试并进入灰度发布环节;监控系统部分,本文首次设计并实现了数据库相关指标监控和智能决策算法,并将其完整地应用到了整个的工程中去。在新的一期计划中,还需要增加Flink渠道、其他类型模板及部分数据处理的机器学习算法。
其他文献
大众信仰是一定时期社会大众在特定的社会生活条件下所反映出来的带倾向性的价值追求和精神状态,当前大众信仰的嬗变呈现出许多新的特征,其产生包括了许多现实社会、政治、经
通过对2014-2016年黑龙江边境热电行业销售毛利率、销售净利率、成本费用利润率及总资产报酬率进行数据统计分析,分别从以营业收入和营业成本为基础、以资产为基础以及以权益
通过初查对案件线索进行甄别以判断案件是够达到立案标准,已经成为检察机关侦办职务犯罪案件的必经程序。一方面,通过初查能够甄别和过滤不实线索,提高检察机关侦办职务犯罪
选取我院2007年~2010年中药不良反应报告,按不良反应类型、药物种类、临床表现等进行分析,探索产生不良反应原因,探讨改进的方法,达到安全用药的用药。
“以服务人民为荣,以背离人民为耻”既是社会主义道德的核心,也是社会主义荣辱观的核心,更是中国共产党立党、执政、兴国之根本。“服务人民”,是中国共产党宗旨的具体体现,是中国
血小板活化因子(PAF)是由不同类型细胞产生的一种强活性磷脂类介质,与过敏、炎症和心血管系统疾病有关,以PAF引起的血小板聚集实验为指导,自胡椒属中草药和中药地血香以及牛蒡子中除分得
用一个区域性的正压海洋模式计算了中国海的12个月的月平均流。本文给出计算得到的南海北部1月份海流和海面高度分布。结果表明,一支冬季逆风的由南向北的海流即所谓“南海暖
随着我国产业结构的不断调整,职业技术教育事业得到了迅猛发展。家长的目光纷纷投向各类技术院校,越来越多的学生迈进了技校的大门。他们中大部分来自偏远的山区农村,初中刚刚毕业,在学校成绩较差,对学习没有足够的信心;有的认为自己很失败,将来不会有什么出息;还有的学生从小娇生惯养,生活懒散、自私、依赖性强,自我意识较重,缺乏健全的人格。这诸多问题不仅影响他们的成长、进步,也给学校管理带来了很大的难度。特别是
<正> 柑桔是我国南方最为重要的水果种类。近些年,生产中存在的病毒病危害以及柑桔北缘地带的周期性冻害已经给柑桔生产造成了巨大的经济损失,这些问题有待育种工作者去解决
讨论形如f(x)=sum from j≥1(λ_j~(s-2)cos(λ_jx)),1<s<2的Weierstrass函数,其中x∈I=[0,2π],λ_j↑∞。在一般的条件下,确定了该函数图象的Hausdorff维数。