异构环境下基于强化学习的大数据任务调度算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:LittleCam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人类社会积累的数据量不断增加,传统数据处理方法逐渐表现出一些瓶颈和限制。自从Map Reduce论文奠定了大数据处理的思想基础后,开源社区推出了一系列大数据处理框架,比如Spark、Flink等等。这些框架所生成的大数据作业可以抽象成一张有向无环图(Directed Acyclic Graph,DAG)。特别地,大数据作业往往具有较高的复杂性,并且负责执行作业的集群越来越呈现异构化趋势。因此,如何在异构集群中高效地调度大数据作业逐渐成为研究的重点。本文在现有的研究基础上,提出了两种调度算法。两种算法都将大数据作业抽象为DAG结构,并以最小化最大完工时间为优化目标来进行任务调度。两种算法的主要区别在于不同数量的处理阶段。值得注意的是,本文算法并不局限于开源社区中现有的调度框架或数据处理框架,而是一种通用的调度方案。本文的主要研究工作如下:(1)根据大数据作业的结构和数据特点,本文设计了一种基于图结构的任务-资源双向向量表达方法。该方法包含两个处理步骤:自底向上的处理对应着图卷积神经网络对于作业的转化操作,自底向上是指子任务节点的特征信息将在处理过程中传递给父任务节点;自顶向下的处理通过计算特定的矩阵,使调度算法尽可能考虑数据本地性,从而减少数据传输的开销,自顶向下是指父任务节点所使用的任务执行器信息将在处理过程中传递给子任务节点。(2)在异构集群的场景下,针对大数据作业集合的调度问题,本文设计了一种基于任务选择过程强化学习的调度算法。基于上述图结构表达方法,该算法引入强化学习模块和资源匹配模块来实现调度功能。调度算法根据调度过程的特点来对状态、动作、奖励以及智能体进行设计,使得强化学习模块能够确定下一个被调度的任务节点和相应的任务实例数。资源匹配模块用于计算被调度的任务实例与各个任务执行器的匹配值,并选取匹配值最高的任务执行器来运行任务实例。实验结果表明,在调度大批量作业的场景下,该调度算法优于其他调度算法,能够加快作业的完成。(3)考虑到基于任务选择过程强化学习的调度算法中算法结构复杂、资源匹配模块存在不足等问题,本文进一步设计了一种基于全过程强化学习的调度算法。该算法将资源匹配模块所实现的功能集成到强化学习模块中,并对状态、动作、奖励以及智能体进行改进,使强化学习模块既能够确定下一个被调度的任务节点和相应的任务实例数,又能够为任务实例选择最佳任务执行器来运行。实验结果表明,该调度算法的调度效果优于基于任务选择过程强化学习的调度算法。综上所述,本文不仅设计了优于现有解决方案的大数据任务调度算法,而且为任务调度问题提供了一种新的解决思路。
其他文献
随着人口出生率的不断下跌以及人口老龄化问题的不断加剧,我国的人口红利正在快速消失,如何尽快实现智能制造、完成制造业的产业升级变得越来越重要,机器人是实现智能制造的重要抓手。三维重建与物体6D位姿估计是操作机器人中视觉技术的关键,其中物体6D位姿估计算法的速度与精度直接决定了操作机器人操作任务的成败,三维重建则为物体6D位姿估计算法提供模型数据,使得物体6D位姿估计成为可能。基于此,本文开展了机器人
虚拟电感电流(Virtual Inductor Current,VIC)补偿的纹波控制方式在使用陶瓷电容的Buck变换器芯片中得到了广泛的应用。VIC补偿是为了解决低等效串联电阻引起的次谐振荡的问题。然而,在瞬态响应中,VIC带来的低频欠阻尼振荡恶化了动态性能。以往的研究基于线性VIC斜率的假设,建立的模型不能预测低频欠阻尼振荡。此外,现有的模型难以拓展到其它类型的VIC。因此,本文建立了VIC补
血压测量是常用的心血管健康监测手段,其对于高血压的预防和治疗重要作用。利用光电容脉搏波描记法技术,可以从人体体表获取脉搏波信号,这种脉搏波信号可用于人体血压测量。由于面部视频的复杂性,从人脸视频中所获取的脉搏波质量不佳。当前主要利用相关硬件采集指端脉搏波信号,并采用复杂的特征工程提取波形特征,基于此建立血压模型。这种方法所建立的血压模型在现实使用中普遍存在模型泛化能力不强,适用性较差的问题。本文对
码头作为水路运输中重要的港口设施,随着社会经济的不断发展,码头工程已成为我们国家的基本建设项目。码头建设工程由于特殊的施工环境,具有一定的施工难度及风险性,安全问题突出已引起国家和社会有关部门高度关注。因此,开展码头建设施工安全风险评价,加强码头施工项目安全风险的预防对策,进行有效的施工安全风险管理,避免施工过程中发生事故,具有十分重要的社会实践意义。本文以T企业码头改建项目为研究对象,项目主要将
政府投资项目,兼有公用与公共利益的基本特征,对优化基建体系、加速供给侧改革、推动经济建设等具备关键价值。此类项目的优质发展,要有高效与精准的管理,而管理水平的提升与风险管理密切相关,关键点即业主方的项目风险管理。因此,政府投资项目业主方的风险管理水平日益受到社会各界的高度关注和潜在担忧。中国的政府投资项目,综合规模与复杂水平持续提升,随之产生的风险也日益升高。政府投资项目的发起者及最终责任者都是业
学位
当前,H市海绵城市建设和老旧小区综合改造提升两项工作正如火如荼进行。本文以H市老旧小区海绵化改造项目为研究对象,以其改造全过程中的方案设计阶段为切入点,结合该阶段的改造设计内容、技术应用特征以及评价特征等内容,从设计方案评审组织者的角度,围绕设计方案评价指标的设计及评价模型的构建等问题进行深入研究,实现此类项目设计方案科学评价。1)H市老旧小区海绵化改造设计方案评价指标研究。首先通过文献研究和项目
根据《中国发展报告2020:中国人口老龄化的发展趋势和政策》的预测,到了2022年我国65岁以上的人口数量将占到总人口的14%,这表明我国的社会形式已经开始逐步迈入老龄化社会。面对人口老龄化问题,我国提出了“健康养老”的战略需求,目的是为了科学、高效、合理的应对人口老龄化问题。人口老龄化带来了健康养老的巨大需求,越来越多的公司和企业开始投身于健康养老领域,推出了众多的健康养老产品来为老年人提供服务
学位
随着互联网广告的发展,广告营销成为了互联网公司的重要变现手段,广告数据分析处理的研究也因此引起了广泛关注。论文以短视频平台广告业务数据为基础,设计并实现了可视化分析的数据报表系统。短视频平台广告数据相比于传统网站具有数据量更大、数据处理时效性要求更高等特点,如何对其存储并实时计算得到关键性指标是本文研究的重点。传统数据库无法有效存储处理海量历史数据,而Hive、Spark等大数据平台无法做到数据实