面向流处理引擎Mars的容错机制研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：a13600660175

【摘要】

：

近年来互联网上数据的急速增长，其中很大部分是流数据，具有无序性、突发性、易失性、无限性等特点。流数据有较强的时效性，其实际价值随着时间的流失而减少。为了应对流数据的处

【作者】

：

朱蔚林

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

流数据计算平台 Mars引擎容错机制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来互联网上数据的急速增长，其中很大部分是流数据，具有无序性、突发性、易失性、无限性等特点。流数据有较强的时效性，其实际价值随着时间的流失而减少。为了应对流数据的处理，数据流处理技术成为了研究热点，学术界和产业界提出了很多具有代表性的数据流计算平台，比如Storm、Spark Streaming、S4、Mill Wheel、Flink、Heron等等。由于数据的易失性，流数据处理平台的容错机制就变得至关重要。这些平台由于面向不同的应用场景，其需求不同，因此所需要的语义保证以及对应的容错机制皆有不同。　　本文首先分析了业界流行的各数据流处理平台的容错语义和实现机制，比较其异同，分析归纳其关键点。然后，针对自主研发的流数据处理引擎Mars，提出一套高可靠的容错机制，实现了at-most-once、at-least-once和exactly-once三重语义的完整容错。文章主要工作如下:　　(1)针对Mars现有容错机制的隐患和不足提出了一套基于内存的N备份容错算法，该方法利用Mars系统的数据组织特点，在N个独立节点的内存进行高效的容错，解决了Mars系统原容错机制额外开销大、可靠性差、时效性差的问题。　　(2)提出了针对Mars系统的三重语义容错结构，面对不同数据处理场景、不同资源状况使用不同的容错语义，实现了系统在不同条件下的可靠性需求。　　(3)提出了多搜索任务分配算法，该算法是面向Mars系统、基于一致性哈希的容错节点分配算法，能够在(1)、(2)的基础上对系统容错结构进行进一步优化，增强了处理引擎的可靠性和可扩展性。　　实验结果和实际应用表明，以上策略增强了Mars系统的容错性能，且使得容错模块对Mars数据流处理系统的性能影响在可接受范围内。

其他文献

电子商务教学模拟系统研究

随着计算机网络的迅速普及，电子商务已经成为国际上的热潮。如何结合电子商务教学，开发出适合教学使用的电子商务教学模拟系统，是一个新的任务。本论文介绍了电子商务教学模拟系

学位

电子商务教学模拟系统B/SASP

ScopeMiner：一个支持决策分析的综合数据挖掘系统—ETL技术研究与实现

数据仓库是数据挖掘和决策分析的基础,纠正数据错误是避免错误决策、降低决策风险的重要一环.因此,数据仓库需要高质量的数据.完成这项艰巨的任务就是ETL.该文主要研究基于元

学位

数据仓库决策支持ETL数据抽取数据转换数据装载数据清洗KNN算法Bayesian算法

分布式深度学习框架的优化方法

深度学习技术是目前计算机科学中的研究热点，在图像识别、语音处理等应用领域中取得了巨大的成果。随着深度学习技术的推广与应用，越来越多的深度学习框架涌现出来，例如Caffe、T

学位

深度学习训练模式分布式框架随机拟牛顿法

面向深度学习框架的资源管理系统设计与实现

深度学习是近年来机器学习领域最令人瞩目的方向。自2006年深度学习界泰斗Geoffrey Hinton在Science杂志上发表Deep Belief Networks的论文后，学术界和工业界对深度学习热情高

学位

深度学习资源管理集群调度资源利用率

消息中间件的研究及在多银行代缴费平台中的应用

该论文是结合沈阳供电公司利用多银行代缴居民电费的具体项目完成的.在项目实施前的调研阶段,详细了解了供电公司居民电费收取的现状和银行利用中间业务平台进行代收代付业务

学位

消息中间件MQSeries分布式应用代收代付

人工神经网络在入侵检测中的应用

本文是在天涯科技公司入侵检测系统算法设计的基础上完成的。主要研究人工神经网络非线性数学模型和计算方法的计算机程序实现，为实现复杂入侵检测信息的非线性整合处理提供技

学位

神经网络(ANN)BP算法入侵检测专家系统

松下网络OCR后处理系统

该论文描述了一个专为松下网络OCR引擎开发的OCR后处理系统.这个OCR引擎使用的是比较新但还不成熟的技术,现在它的词层识别正确率仅有50％.我们的OCR后处理系统是用来提高OCR引

学位

OCR后处理统计语言模型编辑距离大规模加标语料

可视化的光谱分析

该文综述了光电光谱分析技术的现状和未来发展趋势,阐述了可视化技术的概念及其发展趋势,进一步提出开发可视化的光谱分析应用软件是当前发展光谱分析技术所面临的课题之一.

学位

可视化光谱分析数据传输Null调制解调器拟合工作线校准工作线

水电仿真中主变压器系统的设计与实现

丰满水电仿真系统的开发目标是建立一个对实际电厂水力发电机完全仿真的环境，用于对学生进行培训，达到完成培训后即可上岗工作的要求。全套仿真系统基于计算机进行开发，采用了先

学位

水电仿真建模面向对象建模主变压器系统

基于电子商务标准cnXML的分布式注册机制研究

目前采用注册中心方式的电子商务注册机制主要有独立的注册库/知识库机制以及集中式注册中心机制。本方案主要采用了分布式的技术特点，基于cnXML标准体系的注册规范和消息服务

学位

电子商务cnXML分布式注册机制体系架构

面向流处理引擎Mars的容错机制研究

其他学术论文