基于spark的实时海量数据处理分析与优化

来源 :长江大学 | 被引量 : 0次 | 上传用户:hawking415
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着实时大数据处理框架越来越广泛的应用,对基于大数据框架上的应用程序性能的优化需求也越来越多,且要求也越来越高。Spark作为业界使用度最广、认可度最高的分布式实时大数据处理框架,由于其较高的流处理性能而被广泛应用于实时图像处理领域。Spark基于分布式硬件集群,通过各种配置化参数调整Spark作业的运行效率。在Spark性能的优化上需考虑众多因素,因此在具有较大优化空间的基础上,优化难度也是很大的,尤其是针对具体要求情况下,优化多个参数的多目标优化问题。现阶段,针对Spark的性能预测与优化主要有两种方法:机器学习算法、系统行为建模。而这两种方法均存在通用性差、无法较好的解决反向多参数优化和正向性能预测准确率较低等问题。本文针对以上提出的问题,依托项目中实际存在的优化需求,对Spark的运行机制进行研究,在充分挖掘影响Spark性能的重要因素后,提出了一种基于GBDT算法和遗传算法的Spark性能预测与反向多参数优化算法SGBDTP-GA。该算法不仅能够准确的对运行在Spark平台上的程序执行时间进行预测,还能够基于预测模型反向对多目标参数进行优化。本文中,对影响Spark性能的因素分为了两类:硬件配置参数、Spark集群软件配置参数,共计22个特征参数。输出为特定任务在Spark平台上的执行时间。本文所使用的实验数据为真实场景下的人脸照片,通过对人脸照片进行特征值提取得到实验数据,并对实验数据进行Spark平台上的算法运算得到负载时间。基于负载时间训练SGBDTP-GA模型。在此基础上,实现了人脸特征比对的Spark性能预测与优化系统,该系统具有人脸特征比对算法性能预测的功能,同时具备在特定约束条件下的反向多目标参数优化的能力,即可根据特定的执行时间要求与任务规模给出计算资源推荐与Spark平台最佳参数配置表。本文在Spark集群环境下进行了实验,实验结果表明SGBDTP-GA模型能够准确的预测未训练样本的性能,同时基于该预测模型能够反向基于遗传算法得到最佳的软硬件参数配置。对实际项目部署过程中硬件集群参数配置和软件平台的搭建具有指导作用。
其他文献
本刊讯11月19日至21日,广西省北海市酋届家装建材团购嘉年华疯狂团购活动在北海市银滩地产之窗拉开帷幕。卫浴洁具、厨房设施、家具五金、板材、照明、灯饰、地板、陶瓷、空调
本刊讯日前,欧神诺陶瓷克拉玛依生活体验馆隆重开业。开业当天,克拉玛依市工商局、阳光建材市场领导、装饰公司、设计师及客户代表等百余名嘉宾现场助阵。与此同时,商家还推出了
[目的]优选香葱农残净化材料。[方法]采用QuEChERS法从PSA、硅酸镁(弗洛里夕)、中性氧化铝和石墨烯4种材料中优选出香葱农药残留前处理净化材料,并对实验室偶有检出的腐霉利
实验探究的教学模式不仅能提高学生的积极性,而且能将实实在在的实验现象展示在学生面前,更为重要的是这种教学模式培养了学生的创新意识,提高了学生分析问题、解决问题的能
我国教育制度存在的一些弊端,以及独生子女在家庭教育方面的薄弱,造成了大学生人际关系建立和团队精神培养方面的欠缺,这不仅影响其人格的完善,还会影响到未来事业发展。拓展
<正>我相儈总会有一夫我流过的所有的泪水都将变成花朵和花环我遭受过千百次的遍体磷伤将使我一身灿烂何川,重庆合川人。自号"小河"。亲眼见到何川本人的时候,老实说有些吃惊
期刊
关于公平公正待遇条款,无论从文本上存在于国际投资协定的普遍性,还是从实践中被应用于国际投资争端仲裁的广泛性来看,无疑都是国际投资法领域的"帝王条款"。但相较于国内民
本刊讯11月5日至8日,厦门国际厨房卫浴用品展览会将在厦门国际会展中心隆重举行,预计将吸引超过6万的境内外客商前往参观采购。澳洲最大建材城中国建材家居企业(澳大利亚)营销中,