Spark环境下两阶段的数据倾斜优化方法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yanhe100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据倾斜问题导致Spark计算集群中各个计算节点处理的数据量分布不均,甚至可能出现少数几个计算节点要处理绝大部分数据的现象,此问题将严重影响Spark执行作业的效率,进而大幅降低数据处理效率,因此研究Spark计算环境下的数据倾斜优化策略具有重要的理论价值和实践意义。目前存在的数据倾斜优化策略侧重考虑重度键倾斜情况,忽视对值倾斜以及轻度的键倾斜对数据处理效率的影响情况。针对上述问题,分别提出基于两阶段的数据倾斜解决方案。首先,针对Spark环境下值倾斜以及重度键倾斜情况,提出基于贪心算法的两阶段分区数据倾斜优化算法。第一阶段采用改进的水塘抽样算法以解决采样过程中无法获取中间数据值的总空间问题。基于此,依据抽样数据预估中间数据空间的整体分布情况,采用贪心算法对预估得到的中间数据进行预分区操作以解决分区不均衡的问题。第二阶段依据预分区操作得到的键值分区映射表,从而完成实际中间数据分区工作。面向Spark环境下轻度的键倾斜问题,提出了基于数据特性转化的两阶段数据倾斜优化算法,包括针对聚合任务的两阶段聚合算法和针对连接任务的两阶段连接算法。两阶段聚合算法采用局部聚合以解决分区不均衡问题,随后采用全局聚合以获取最终计算结果。两阶段连接算法则通过抽样拆分以实现倾斜数据与非倾斜数据的分离,最后分别进行连接组合以获取最终的连接结果。通过三种基准实验,在不同的数据倾斜程度和数据量下验证了提出的数据倾斜优化策略的有效性。当值倾斜和重度键倾斜发生时,基于贪心的两阶段分区算法的作业执行时间较之目前算法可降低23.5%;而在轻度的键倾斜情况下,提出的两阶段聚合算法和两阶段连接算法的作业执行时间可分别降低11.3%和9.2%。
其他文献
随着智能电网的发展,我国电力系统积累了大量有关电力设备检修和保养的文档,这些文档中蕴含着丰富的电力设备相关知识,但是目前这些知识并未得到充分利用。为了充分利用上述电力设备文档中的知识,可以使用知识抽取技术从文本中抽取结构化的知识,并构建电力设备领域知识图谱。知识抽取是知识图谱构建的关键步骤,为了提高知识抽取算法的准确率,本文研究了现有的知识抽取算法,并在现有研究的基础之上提出了命名实体识别和关系抽
学位
中华民族经过多年历史变迁,诞生了大量中华优秀传统文化,这些文化内容对于个人和国家发展均产生了深远的影响。高职院校大学语文除了有丰富学生语文知识,培养学生各项能力的教学目标以外,还有培养学生综合素质的任务。在这一以语言育人的基础课程中,教师应明确中华优秀传统文化中有利于提高学生道德素养和精神境界的作用,将二者融合,使学生在鉴赏文学作品的同时,体会到其中承载的文化意蕴。对此,本文在分析了高职院校大学语
期刊
作为河南省首批优质中医学术流派,河南娄氏风湿病学术流派根植于历史悠久的中原文化,兼容并蓄历代医家学术精华,创于清代晚期时的河南省原阳县,历经五代人的孜孜以求,跨越130余年的躬身实践和集腋成裘,在矢志“攻克顽痹”方面填补了国内多项空白,创立了独具特色的风湿病“虚邪瘀”病因病机学说,确立了系统精要的风湿病“虚邪瘀”辨证论治体系,推动了风湿病学科的创新发展,并以显著的疗效在数以万计的疑难重症风湿病患者
期刊
脑颈动脉解剖关键点定位对于脑部手术计划的决策和脑科手术视觉导航系统的开发具有重要意义。鉴于人工标注成本太高,基于深度学习的解剖关键点自动定位方法应运而生,但目前的方法在准确性、鲁棒性和效率方面仍然存在问题。为了提高医学图像中脑颈动脉解剖关键点定位的精准度、鲁棒性和效率,本课题提出了级联SCN+模型。SCN+模型在空间配置网络SCN(Spatial Configuration Net)的基础上对每一
学位
为了解动物医学专业动物福利与伦理的教育现状,以北京某高校部分动物医学专业本科生为调查对象,开展了对动物福利与伦理认知现状、实践和理论知识获取方式、相关课程开设意向的问卷调查。结果表明,大部分学生认为有必要关注动物福利与伦理,但对相关知识的认识与理解比较欠缺,有待进一步提高。笔者提出,可通过加强动物实验3R(reduction,减少;replacement,替代;refinement,优化)原则的可
期刊
通常在深度学习里,大多数情况会使用某个场景的大量数据来训练模型,然而当场景或者数据集发生改变时,模型就需要重新训练。而元学习的训练过程是以各种学习任务为训练数据,在此基础上训练一个模型,模型就可以拥有在新任务上通过少量样本就可以完成学习的能力。移动终端设备是部署、训练模型不可或缺的重要载体,但由于移动终端设备计算、存储资源的局限性,很难快速、有效的训练模型,使得降低模型运算成本显得尤为重要,该研究
学位
急性脑梗是一种严重的脑血管疾病,具有高致死率和致残率。平扫CT(NonContrast Computer Tomography,NCCT)成像是疑似脑梗患者的首选检查方式,基于NCCT图像分割病灶确定发病位置及范围是辅助医生诊断治疗的重要手段。目前基于深度学习算法对急性脑梗病灶进行自动分割的效果还不够理想,仍需探索更高精度的自动分割方法。针对经典的三维U型网络模型(3D UNet)特征提取能力不足
学位
知识图谱嵌入通过将离散的关联实体和关系以嵌入的形式进行表示,实现了知识图谱中实体语义特征的数值化,方便了知识图谱在下游任务的应用,如知识图谱补全、知识问答、推荐系统等。然而,知识图谱在下游任务的应用效果直接取决于知识图谱嵌入的质量。因此,如何提高知识图谱中实体嵌入的质量,是知识图谱嵌入研究中重点关注的问题之一。目前的实体嵌入研究忽视了知识图谱自身中蕴含的丰富语义信息,如实体类型、本体等。实际上,这
学位
减肥预测可以帮助用户更好的管理自身体重,维持健康状态。过往的减肥预测研究大多集中于分析用户卡路里的平衡状况,以此预测用户的减肥状态。这种方法需要有专业的营养师指导以及用户的高度配合才能得出较好的结果,预测成本太高。减肥社交应用的流行积累了大量数据,如果可以通过这些数据准确预测用户未来的减肥状况,将会大大降低减肥预测的难度。当前基于社交网络的减肥预测模型,成功降低了减肥预测的难度,提高了减肥预测的精
学位
随着大数据时代的到来,大量的感知设备产生了海量的多源异构数据。为了更好地挖掘这些数据,深度计算被广泛运用于图片和视频处理领域。然而在数据带来便利的同时,也伴随着严重的隐私泄露风险。因此结合中心化差分隐私技术和张量深度卷积计算模型,提出了中心化差分隐私张量深度卷积计算模型。但是该模型尚存在一些问题。一是中心化差分隐私张量深度卷积计算模型只能保证输出模型的隐私性,但无法避免数据挖掘者对隐私数据的窥视。
学位