大数据模型调度系统的关键问题研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：akajewelz

【摘要】

：

近年来,随着数据量和计算能力的增长,越来越多的数据处理任务使用集群来完成。为了进一步提高编程的灵活性和作业执行的效率,在MapReduce的基础上出现了Pig、Hive等各种不同

【作者】

：

彭世锦

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2017年01期

【关键词】

：

混合作业模型调度算法工作流 SVM

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着数据量和计算能力的增长,越来越多的数据处理任务使用集群来完成。为了进一步提高编程的灵活性和作业执行的效率,在MapReduce的基础上出现了Pig、Hive等各种不同类型的作业,以及基于内存计算的Spark作业。用户只需要将各类作业提交给通用资源管理框架YARN(Yet Another Resource Negotiator),然后由YARN进行统一的管理与调度。然而在现实应用中,复杂的数据处理任务往往需要将多个作业甚至不同类型的作业组合起来,不同类型的作业具有不同的执行特征,而且某些作业还具有重复性执行的特点。在作业的执行过程中,随着资源的分配与回收,集群中的可用资源会发生动态的变化,作业之间相互竞争资源的情况对作业的执行效率和调度目标的实现具有显著的影响。如果仅仅只将作业提交给YARN而不考虑作业本身的特征和集群的各种软硬件资源的使用情况,则很有可能因系统资源过载而使得作业挂起或执行失败,从而导致资源的浪费,也无法对作业模型的执行过程进行更细粒度的管理和控制。本文首先定义了调度系统中涉及的作业模型和资源模型的特征参数,并基于此提出了混合模型。针对混合模型的调度参数采集和预处理,提出了一种基于深度学习的缺失数据补全方法。然后,在工作流管理技术基础上,根据作业所处理的数据量、作业本身的特征以及采集的集群资源特征对作业的可调度性、执行时间进行预测,并根据预测结果进行调度,从而降低作业执行失败率并提高作业的执行效率。对于单个的作业而言,通过工作流管理系统收集作业执行时间和执行结果状态,并结合作业执行过程中采集的集群资源监控指标数据,形成作业的历史执行信息。然后根据作业的历史执行信息使用SVM(支持向量机)预测下一个作业的资源可用情况,并以此判断作业的可调度性。对于由不同类型的作业组合而成的DAG(Directed Acyclic Graph)作业模型而言,根据作业的预计执行时间分析作业模型的关键路径。在模型执行过程中,根据模型的执行情况和资源变化情况采用工作流管理技术动态地挂起或者恢复作业,控制作业的执行流程。在关键路径的基础上,提出了调度判别函数,并基于判别函数动态改变作业的执行路径,从而提高整个作业模型的执行效率。最后,本文设计了若干作业模型样本,搭建集群实验环境,根据预测结果对调度算法的有效性进行验证,并分析了各种参数设置下的实验的结果。实验结果表明本文提出的调度算法以及基于该算法的调度系统具有良好的效果,达到了系统预期的设计目标。

其他文献

海面建模与绘制技术研究

近年来,计算机科学与技术迅猛发展,计算机图形学这一学科也取得了很大的成就。随着虚拟现实技术在商业娱乐、工业仿真等方面的广泛应用,海面的动态仿真逐渐成为广大计算机图

学位

海面绘制LOD技术FFT

基于纠删码的分布式文件系统数据块管理技术研究

为了应对持续增长的数据存储需求,大规模分布式存储系统逐渐开始采用纠删码技术,以求在保证数据可靠性的前提下减少存储开销。现阶段,多数研究以退化读问题为主题,试图解决纠

学位

纠删码分布式文件系统数据本地化数据块管理

一种基于Android的云桌面控制系统

伴随着计算机和互联网技术的发展,数据量呈现爆发式的增长,各种应用程序对于系统硬件的要求也越来越高,传统的个人计算机(PC)使用模式已经越来越难以满足用户需求。另一方面,

学位

安卓云桌面虚拟化技术远程控制

图像纹理特征的研究

图像纹理是自然界物体表面的一种本质属性，是人们区别其他物体的一种重要特征，应用在很多行业中，尤其是是在识别和分类上，纹理特征至关重要，虽然已经研究了很多年，但是由于纹理本身

学位

图像纹理纹理特征灰度共生矩阵小波Gabor滤波器

Wordnet在图像语义分析中的应用

传统上基于内容图像检索(content-based image retrieval, CBIR)系统因存在着使用者查询与图像特征间的语义鸿沟,所以通常无法满足使用者的需求。语义鸿沟为CBIR系统主要的缺

学位

语义侦测智能导向图像检索视觉图层图像切割语义学习

广播盘环境中移动事务的并发控制研究

在无线广播环境中,一些传统的并发控制语法由于受上行通信频道的带宽和移动客户端电池能量的限制,并不适用于移动事务中。当数据访问方式被扭曲时,这些方法的性能很差,而且本

学位

移动事务并发控制广播数据广播磁盘组移动计算

基于上下文感知的建筑工程质量管理模型的设计与实现

普适计算技术是计算技术中前沿的研究之一,为我们的生活和工作提供了多种多样的服务。论文结合当前国内外建筑工程质量管理技术的现状和发展趋势,分析了实施建筑工程质量管理

学位

上下文感知工程质量管理本体语言

基于无线通信技术的智能巡检系统的应用研究

无线通信近些年来飞速发展,人们越来越多的在工作、学习和生活中使用无线通信方式进行网上浏览、数据传输等工作。无线通信应用于智能巡检系统中可以提高任务下载和任务结果

学位

智能巡检系统无线网络AndroidWeb servicesRFID

结构光几何重建的图像编解码技术研究

编码结构光已成为目前结构光几何重建的主要方向，通过对条纹进行编码来标记物体的空间信息，再对光栅图像中的编码条纹进行解码，利用数学理论，即可求得物体的空间三维坐标。因此，编

学位

结构光几何重建编解码方法Canny算子

基于3G核心网数据的用户网络行为识别技术研究

3G网络的普及加速了人们迈向互联网时代的步伐,通信运营商拥有庞大的3G用户数量,越来越多的研究人员加入到3G网络数据分析与研究的行列中。但是目前对于3G网络数据的研究主要

学位

3G核心网DPI技术网络行为分析决策树预测模型

大数据模型调度系统的关键问题研究

其他学术论文