大数据系统的网络计算联合优化

来源 :南京大学 | 被引量 : 0次 | 上传用户:lingotest
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据中心在云计算的发展过程中起着至关重要的作用。在当今的数据中心,集群计算以其高性能和低廉的计算价格,广泛应用于数据处理和分析领域。然而,现有的网络级优化与集群计算应用程序的性能需求不匹配。对于Hadoop和Spark等主流数据并行框架来说,网络通信是高度结构化的。它们通常实现一个数据并行计算模型,其中每组数据流在产生最终结果之前都需要经历一个连续的通信阶段。在每个通信阶段,并行流需要在一组主机之间交换数据。通常这样的通信阶段只有在所有的流完成之后才能完成。Coflow是针对这种全有或全无的特殊作业应用程序级语义提出的一种网络抽象。Coflow是通信阶段的一组相关流的集合。所有的流都已经完成才意味着Coflow完成。这种抽象缩短了应用程序级语义和网络级优化之间的差距。为了探索更好的基于Coflow的传输性能改进方案,有许多关键问题需要研究,最常见的问题是Coflow调度。Coflow调度问题的最常见目标是最小化平均Coflow的完成时间。本文依据当前相关研究工作中的不足,提出了网络通信优化的Coflow调度研究,本文目标在于最小化Coflow完成时间(Coflow Completion Time,CCT),主要研究内容分为以下两部分:1.本文开发了一个双边Coflow调度框架Django。使用丢包率作为一个关键特征,建立预测模型来估计流传输过程中的最优并发连接数。本文选择支持向量机(Support Vector Machine,SVM)作为机器学习模型,使用C-SVC模型作为多类分类器。结果表明,该模型能够以97%的正确率估计队列限制。然后,本文提出了一系列双边的调度算法,其中发送方和接收方主机可以相互独立和异步的交互。将最佳并发连接数作为输入,接收方主机打开或关闭到发送方的连接,实现对Coflow的调度。真实环境实验和在NS-3上进行的大规模模拟实验表明,本文算法可以将平均CCT和尾部CCT分别低15%和40%。2.本文实现了一个在线的联合reducer布置和Coflow带宽调度框架,以使平均CCT最小。核心思想是首先通过reducer的布置和流量传输速率的控制来最小化单个Coflow的完成时间,然后按照最短剩余时间原则调度所有Coflow。因为这是NP难问题,本文提出了两个近似比为2的近似算法。真实环境实验和大规模模拟实验证明框架相比于最先进的技术可以将平均CCT减少64.98%。
其他文献
远程内存直接访问技术(RDMA)正在被越来越多的应用到数据中心来获得更优异的性能表现。RDMA技术允许应用绕过远端CPU,直接访问远端机器的内存,并且通过将网络协议栈卸载到网卡和内核旁路的方式提供超低的延迟和更高的网络带宽。然而将数据中心里的分布式系统从以TCP/IP为主的网络通信架构迁移到RDMA通信架构并非易事,这主要由两方面造成,一方面是由于RDMA自身的限制造成的,尽管RDMA已经给开发者
多智能体强化学习是强化学习的一个子领域,由于其更加贴近真实世界,因此获得了广泛的关注。但是由于多智能体系统的运行逻辑更加复杂,相对于单智能体场景,很多问题在多智能体场景中更加难以解决,比如探索与利用的平衡问题。探索与利用的平衡问题在单智能体场景中已经涌现出了很多优秀的工作,但是在多智能体场景中却还未被深入研究,且目前已有的工作大多数都不具备良好的扩展性。此外,虽然多智能体强化学习的研究热度日益增长
学位
学位
研究背景InDel遗传标记凭借其扩增片段短、突变率低、易于进行基因分型等优势,在法医学领域已获得越来越广泛的关注。传统法医遗传学亲子鉴定或个体识别往往通过STR基因分型来完成,但STR遗传标记具有扩增片段较长、突变率较高、易出现影子峰等缺陷,尤其在面临降解DNA检材时表现出较大的局限性。InDel遗传标记能弥补传统STR遗传标记的缺陷,在面对疑难案件时可为法医个体识别和亲子鉴定提供新的辅助解决办法
随着社会用电需求增长,输变电工程项目建设数量和规模不断扩大,但受项目建设外部环境、设计深度和政策法规等繁多因素的影响,投资计划管理人员难以做出精确度高的可研估算,导致决算投资与计划投资偏差较大。如何合理预估工程造价,对输变电建设工程进行造价管控,提高投资资金利用效率,已成为相关领域热门课题。针对电网工程的造价预测问题,选取变电站工程作为研究对象,分析了其具有的数据量小、影响因素繁杂和非线性关联等特
[目的]阿米替林(Amitriptyline,AMI)作为最常见的抗抑郁药物之一,在部分地区被广泛使用,具有复杂的药理机制以及多种不良反应,其中以心血管系统最为常见,过量摄入阿米替林的死亡机制主要为心脏毒性,但阿米替林的心脏毒性机制仍不清楚。钙离子在生物体内,尤其是心肌细胞内具有十分重要的地位及作用,它与心血管疾病和心血管不良反应密切相关。钙离子的调节机制也十分复杂,多种钙调蛋白通过不同的方式调节
我国改革开放40多年来,经济持续增长、社会财富不断积累,高净值人群数量实现了跨越式增长。随着家族信托业务实践在国内的展开,高净值人士通过家族信托进行财富的保值增值、家族财富管理与传承的需求日益旺盛。当前,国内信托公司的主要业务是融资类业务,其现有的以融资类信托为主的业务受托能力与家族信托业务受托能力的要求不完全匹配,因此梳理、分析和提高信托公司家族信托业务受托能力、顺利完成信托公司业务转型成为信托
细粒度情感分析,又被称为多方面情感分析,是自然语言处理领域重要的子方向,相较于传统的句子级或文档级情感分类,需要对每个方面词做出针对性的情感极性分类。该领域的核心在于计算方面词和句中其它词的相关性以及得到针对该方面词的文本表示。经典的细粒度情感分析的解决方案大多都是基于长短期记忆网络或卷积神经网络,同时引入注意力机制生成对应的文本表示。尽管大量的研究工作表明了这些方法的有效性,但是仍然存在一些不足
正电子发射计算机断层扫描(Positron Emission Tomography,PET)是一种高灵敏度核医学成像技术,能在分子水平检测器官代谢。PET探测器承担PET系统的核心功能,探测高能粒子并生成用于解码成像的电子信号,其性能改善有助于提高PET系统成像质量。PET探测器主要由闪烁晶体、光传感器、采集电路三部分组成。其中闪烁晶体用于拦截高能粒子并产生闪烁光子。由于PET系统中常用的闪烁晶体