基于DAG的数据流处理与分析引擎的研究与实现

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:chenanji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,数据量的不断提升,推动着大数据技术的发展,因此,对大数据的分析研究成为现阶段软件工程的重要分支,随着消息中间件技术的发展,对实时数据的获取和分析已具备了技术条件。本文主要针对中国科学院现有数据处理平台不能满足对实时数据处理的需求,比较了国内外已有系统的优缺点,提出了基于DAG(Directed Acyclic Graph,有向无环图)的流数据处理与分析引擎。该引擎不仅能够利用现有的计算资源灵活高效地处理实时的海量数据,而且还具有良好的扩展性,能够满足中国科学院对实时数据处理任务过程的需求。本文分析了目前对实时数据处理的需求,在理论方面的工作如下:(1)本文提出了算子模型算子模型的设计基于已有系统对数据操作的抽象,在实现易用性和可复用性的同时保证了与业务过程的高度统一。(2)本文设计任务调度算法任务调度算法的设计源于分布式计算框架的内部逻辑,保证了数据处理的可靠和高效。(3)异步通信机制异步通信机制是根据实际情况对同步通信机制的改良,在保证通信效率的同时,释放了对资源的占用,通过接口设计,保证了各部分之间的高内聚和低耦合。基于DAG的流数据处理与分析引擎为实现理论模型提供物理支持,同时也是验证模型正确性的必要手段。在此基础上,设计了如下的功能:(1)设计了引擎的控制功能控制功能为用户提供友好的图形用户界面,通过对操作元数据库功能的封装,保证控制功能本身的易用性。(2)设计了引擎的调度功能调度功能为用户提供对底层分布式计算框架的选择和调度。(3)设计了引擎的执行功能执行功能为用户提供向分布式计算框架提交计算的功能,通过与底层分布式计算框架的绑定,降低了底层分布式计算框架与调度功能和算子模型的耦合度;执行功能可插拔,通过对不同分布式计算框架的适配,实现在其提交计算的能力,并可根据实际情况进行对应的部署。本文对模型和引擎系统进行了验证,解决了各个模块在开发过程中遇到的问题。此外,对模型进行了验证,本文最终验证了系统的可用性和模型的正确性。该引擎的实现,在工程实践中解决了流式数据计算的问题,并为之后流计算的工程开发提供了可靠实例。同时,在理论上,也为流计算的研究提供了可参考的模型与算法。
其他文献
近日,由我国自主研发的太阳能光热农业综合利用示范系统通过评审并投入使用,该系统将太阳能资源有效应用于农业生产,能够降低农业生产对煤炭和石化能源的依赖和消耗,弥补农村能源
目的 探讨4种血管内皮功能指标评价糖尿病视网膜病变的价值。方法 选择134例糖尿病患者,根据直接眼底镜检查和眼底荧光血管造影将患者分为无糖尿病视网膜病变(NDR)组、背景型糖
CRTS Ⅰ型双块式无砟轨道道床板为现浇混凝土部件结构,轨枕为预制结构部件,在新、旧混凝土交界处存在界面易开裂的问题。建立CRTS Ⅰ型双块式无砟轨道有限元模型,用cohesive
早强剂作为一种能够显著提高混凝土早期强度的外加剂,对轻质复合发泡泡沫混凝土的早期性能有着较大影响。试验采用WDW-E微机控制电子万能试验机分别对不同养护龄期下三种不同
2017年3月底开播的电视剧《人民的名义》火爆各大网站,霸屏朋友圈。一方面,这部质量上乘的国产电视剧关注社会万象,反映世间百态,还原了真实的政治生态,传递了反腐正能量,反
[目的]了解老年病人医院感染的现状,分析感染原因,制定护理对策。[方法]对2015年1月—2016年1月老年病人发生医院感染的30例病人进行回顾性分析,制定对策。[结果]在30例老年
目的:研究耳鼻喉术前应用双氯芬酸钠栓对术后疼痛的预防作用。方法:取我院耳鼻喉手术患者190例为研究对象,随机分研究组(双氯芬酸钠栓)与对照组(芬太尼透皮贴剂)各95例,比较
农家书屋工程是社会主义新农村建设的文化工程,也是党中央实施的文化惠民五大重点工程之一,是缩小城乡文化差距、实现公共文化服务均等化、保障农民群众基本文化权益的必然要
良好的警察形象,对于增进公安机关内部战斗力和凝聚力、提高对外公信力和建设力、积极发挥好执法部门的职权以及维护国家安定,构建和谐稳定的社会尤为重要。一直以来,公安机
近距离放射治疗(brachytherapy)是放射治疗的重要组成部分,对宫颈癌、前列腺癌等肿瘤的治疗具有一定的优势。腔内近距离治疗通常采用高剂量率放射源192Ir,近源处剂量极高,随