Spark Streaming系统性能建模关键技术研究

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:jsrlzxd111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark Streaming是大数据批量流式计算系统的最新进展,其核心技术特征是将接收的流式数据按时间顺序切分为多个小批次,并使用批处理计算技术周期性地进行数据处理,以获取近实时的数据处理响应和较高的数据吞吐率。既有针对Spark Streaming系统性能分析的研究主要集中在采用基于观测的方法对系统整体或局部组件进行性能监控和结果分析。然而,Spark Streaming是由数据接收、存储、计算等多阶段多组件构成的复杂系统,各阶段之间存在数据传递和性能依赖关系。既有性能分析方法运用于实际生产性平台暴露出两个缺陷,一是无法依据组件间的数据依赖关系真正定位系统性能瓶颈;二是无法针对流式数据负载动态波动特性快速、量化地评价系统性能。性能建模是计算机系统性能分析的一类重要方法。它通过数学理论与方法研究和量化描述性能与系统、负载之间的关系。目前,针对Spark Streaming的性能建模工作尚属空白。因此,本文提出了基于排队论的Spark Streaming性能建模技术,利用排队理论对系统数据处理各阶段构建排队模型,刻画组件间数据依赖关系;并通过对模型的数学解析获取不同数据负载强度下的量化系统性能,指导在线系统性能优化。本文的主要贡献包括:(1)构建了基于排队理论的Spark Streaming量化性能模型。对Spark Streaming系统的数据处理流程进行了阶段划分,依据排队论理论对各阶段的数据到达和服务特征进行合理假设,分析各阶段工作原理,选取了相应的排队模型,并基于排队模型给出了数据平均响应时间的计算方法。(2)设计了模型参数的计算方法以及性能模型的精简方法。对所构建性能模型的参数定义了计算方法。同时,针对性能模型参数获取导致系统开销过大的问题,提出了基于关键组件选取的模型精简方法,通过选取逗留时间占比较大且具有随机变化特征的随机关键组件,降低模型的复杂度,减少对系统的性能入侵。(3)验证了模型准确性并应用模型指导系统性能优化。采用Spark Streaming流式负载进行验证实验。实验结果表明,与实测数据平均响应时间相比,模型计算的数据平均响应时间准确度最高为99.5%,且误差小于8%的批次占90%以上。此外,利用性能模型对Spark Streaming进行了在线优化。实验结果表明,通过模型指导可使系统中数据平均响应时间平均缩短11.20%,最大缩短15.88%。
其他文献
当今能源危机和环境污染日益严重,开发新能源刻不容缓。氢能作为最有前景的新能源之一,可通过电催化水分解工艺制备。目前,这些催化过程主要依赖于铂、铱、钌等贵金属,但价格昂贵、自然界储量低等限制了其发展,因此寻找高储量、低成本且稳定的非贵金属电催化剂成为大势所趋。钴基金属硒化物是一类新兴的非贵金属电催化剂,其具有与贵金属类似的电催化性质,且储量丰富,经济性突出,是潜在的高效催化剂。本论文工作通过比例调控
在社会化媒体时代,图文并茂的表达方式成为主流,但是相比于文字,人类创作图片的过程相对复杂,因此借用已有的图片进行表达的方式受到用户欢迎。作为人们获取信息、交流、沟通
随着互联网的飞速发展,网络中产生了大量短文本,这些短文本涉及的内容与领域多元化,逐渐成为使用频繁且公认的沟通方式。电子商务评论、信息检索、智能问答系统均是海量短文
全国经济综合竞争力研究中心在京发布的《“十二五”中期中国省域经济综合竞争力发展报告》蓝皮书显示,福建省域经济综合竞争力排名全国第九,其中,可持续发展竞争力排名全国
柱状腔向列相液晶系统是将向列相液晶注于圆柱腔内所构成的液晶系统。由于液晶分子的取向及有序度易受到边界限定性效应、外场、温度等因素的影响,使得柱状液晶系统有着丰富
近些年随着互联网与信息技术的快速发展,互联网的规模得到了巨大的提升,它向用户提供的信息也正在急剧增加,我们正在面对一个“大数据”的时代。在这海量的数据中,如何获取最
20世纪90年代开始在国际上掀起了消费新潮流——绿色消费。绿色消费深刻的反思了现代工业社会的非生态的消费模式。传统的非生态的消费模式极大的破坏了环境和浪费了资源,是
随着人们对视觉消费的需求提升,图像超分辨率重建技术成为近年来计算机视觉领域中的研究热点。超分辨率是一种通过软件算法将低分辨率图像转换为高分辨率图像的技术,超分以后的高分辨率图像相比较低分辨率图像,图像细节信息更加丰富,纹理更加清晰。超分辨率已经广泛应用于日常生活的多个行业:视频监控,医疗图像,遥感成像,电子消费等领域。图像超分辨率重建领域的优秀算法众多,大致可分为三类:基于插值的方法、基于重建的方
随着我国特高压直流输电工程的建设,电网一体化特征不断加强,电网送受端之间的耦合日趋紧密,故障对电网运行的影响由局部转为全局,特高压直流输电工程一旦发生故障,会严重影响送受端电网的稳定性。目前针对直流故障后送受端电网的调度控制问题,仍是以传统的仿真模拟分析为主。本文采用数据驱动方法,基于无监督学习算法对特高压直流故障后的送受端电网特征及控制策略进行深入研究。主要研究工作及成果如下:1)提出了基于改进
我国对于过度劳动的研究起步较晚,而且多集中于社会保障和人力资源领域,法学领域对于过度劳动的概念、成因、救济方式等问题的探讨是不够充分的。处于社会主义经济发展的初级阶段,伴随经济高速发展的同时,各种因素也制约着我国劳动者休息权的实现,普遍存在过度劳动的现象。造成这种现象的原因有:一方面,我国的劳动基准制度不够完善,工时制度、休息休假制度、劳动定额制度不够完备;另一方面,现行法律无法对企业的过度用工现