基于分区的分布式达梦数据交换平台(DMETL)的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ZhuoFeichi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前数据的结构愈加复杂,分布更为广泛,促进了分布式ETL工具的发展。达梦数据交换平台(DMETL)是高性能的流式ETL工具,它的集群特性支持ETL流程的分布式执行。对于分布式ETL工具,对ETL活动节点分区是ETL并行优化策略的一种,可以提高并发度,但是容易产生较大的网络开销。而对ETL流程进行合理划分能够减小网络开销,提高资源利用率,因此基于分布式达梦数据交换平台对ETL流程的分区问题进行研究是很有意义的。首先,介绍了分布式达梦数据交换平台的总体结构,描述了ETL流程在流程执行引擎中的执行过程,并对其中的关键模块:执行引擎模块、元数据库模块、服务监听模块和集群管理模块进行了介绍。元数据模块可以获取ETL流程的活动信息,执行引擎中负责进行解析和分区,远程服务监听模块可用于远程执行子分区流程,集群模块为流程分布式执行提供可靠性保证。然后,研究DMETL活动节点的划分问题和ETL流程分区问题。对于活动节点分区,实现了多种节点分区策略;对于流程分区,将流程分区问题转化为树的分区问题,最后将活动节点分区和流程分区相结合,设计了DMETL对于分布式ETL流程的分区策略。此外,为了执行分区后的子分区流程,设计了执行引擎的多线程流水线式调度策略,并针对高并发场景,改进了ETL活动节点间缓冲区的实现。最后,通过实验表明,系统实现了设计的分区策略,在执行效率上相对于现有的任务划分策略有所提升,而且改进后的缓冲区在高并发的场景下,性能也得到了改善。
其他文献
在电厂设备的维修领域中,预测维修是近十年发展起来的一门综合性新技术,汽轮机预测维修是其中的研究热点之一.根据电厂提出的实际需求,济南大学计算机应用研究所与山东鲁能控
伴随着计算机网络和多媒体技术的发展,人们不仅仅满足于用单模态数据来描述一篇文档,包含多种模态的多媒体文档越来越频繁的出现在网络中,因此跨媒体检索也越来越受到人们的
无线传感器网络是一种新型的、无基础设施的、自组织的无线网络。近年来随着微电子技术、传感器技术及通信技术的发展,无线传感器网络技术发展迅猛,进展很快,而且在军事与民用方
Ad Hoc网络是随着无线通信技术的快速发展而出现的一种新型网络,节点能够自由进入网络拓扑并且无须基础设施的特性,使得Ad Hoc网络的出现推进了实现在任意环境下自由通信的进程
工作流管理系统的最重要功能之一就是工作流建模。一个好的工作流模型是实现一个具有高度灵活性、可靠性、可用性、可伸缩性和互操作性的工作流管理系统的关键和基础。工作流
随着互联网技术的高速发展,人们更加倾向于从网络上获取所需的新闻热点信息。由于网络数据具有信息来源广、传播速度快、内容杂乱无章等特性,想要从海量的网络信息流中发现自
智能卡正越来越广泛地应用到交通、电子商务、ID卡等领域。其主要的优势在于内部的数据只用于内部处理,只有运算的结果可以获取,然而智能卡芯片的内部数据可以通过边带信道攻击
随着计算机网络技术的不断进步,近几年来无线网络通信得到了迅速的发展,而计算机网络资源则相对匮乏,在网络系统中,如何实现资源的公平分配与高效利用一直是网络研究的重点与热点
汉字是中华民族文明的象征,有着上千年的历史。汉字识别在办公自动化、机器翻译、新闻出版等很多方面都有广泛的应用。脱机手写体汉字识别是汉字识别中最难的一类问题,其识别
随着Internet的发展,移动Agent作为Internet和移动计算应用与发展的催生物得到越来越多的人的关注。简单地说,移动Agent是一个独立的计算机程序,可以在异构网络上自主地从一个节