多个云环境下大数据工作流性能优化算法的设计与实现

来源 :西北大学 | 被引量 : 0次 | 上传用户:sh_xq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算技术的不断发展,融合多个云计算环境的混合云越来越得到广泛的应用。在许多科研应用程序中,要得到最终结果需要执行一系列任务。而这些任务,如数据生成、处理、分析等,之间存在着相互依存的关系,这些任务组合及其相互依存关系构成了工作流。在很多具体的大数据应用实践中,工作流技术已经成为不可或缺的一部分。目前云计算服务分为三种:软件即服务(Software as a Service,SaaS),平台即服务(Platform as a Service,PaaS),基础设施即服务(Infrastructure as a Service,IaaS)。基础设施即服务是将计算资源抽象成一个个虚拟机,将虚拟硬件资源提供给用户。它对于大数据工作流的执行是最适用的。对于一个工作流,可以直接应用云平台所提供的虚拟硬件资源来执行各个任务,就像传统的运行在集群上的工作流一样。  在实际应用中,预算约束和可靠性约束都是对大数据工作流的部署非常重要的约束。预算约束是保证工作流能以较低的成本运行完成,而可靠性约束针对的是真实的云环境中的各种不确定性和故障。本文针对在预算和可靠性双重约束条件下的多个云环境中工作流映射问题,抽象出问题的数学模型,分析了问题的复杂性,设计了启发式算法,并进行了实验比较。文章证明了问题的复杂度是属于NP-Complete的,并且通过实验发现本文提出的算法相比较之前的算法有明显的优越性。  本文对于工作流映射的研究分为以下几部分:  问题的提出与复杂性的证明。本文针对预算受约束,通过工作流映射,建立了针对两种不同可靠性要求下的端对端延迟最小化问题的数学模型。通过复杂性分析,证明了这两个问题都是一类NP-Complete问题的子问题,从而得到这两个问题也都是NP-Complete的。  问题的分析与算法的设计。针对这两个问题,分别提出了启发式算法RMCWM和EMCWM,算法分为虚拟机选择、物理机及带宽选择两个阶段。由于问题中对可靠性的建模采用了3GG模型,在分析该模型特性的基础上,发现了优化可靠性的规律。并将这种规律融入算法的设计中,取得了很好的效果。  模拟实验和性能评估。本文对所设计的算法针对不同规模的云和不同数量的云组合,进行了模拟实验。实验证明了不论在小规模的云组合的情况下还是大规模的云组合的情况下,该算法对比之前的算法都有明显的优越性。
其他文献
命名数据延迟容忍网络(NDDTN)是指命名数据网络(NDN)和延迟容忍网络(DTN)的融合。一个高效的转发策略不仅能够帮助用户快速准确地获得想要的内容,而且还有较低的传输时延和网
在信息化高度发达的今天,互联网已经成为人们获取信息,即时沟通的重要媒介之一,给人们工作生活带来了很大的便利。但是由于其全球性、开放性、即时性的特点,互联网也成为不法
随着机器翻译的发展,统计机器翻译已经进入瓶颈期很难有所提高,因此研究人员逐步将研究目光投向神经网络机器翻译方向。神经网络机器翻译也在大规模语料上取得了很好的翻译效
作为一种主动的安全防御技术,入侵检测是网络安全技术的一个重要研究方向。支持向量机(SVM)建立在统计学习理论的VC维理论和结构风险最小化原理基础之上,避免了局部最优解和维
运动人手三维跟踪是人机交互研究中的一个基础性和关键性研究课题,手势以及运动人手作为一种人机交互方式具有自然、方便、和谐的优势,是如今鼠标键盘和数据手套等设备所无法比
无线胶囊内窥镜(Wireless Capsule Endoscopy, WCE)是一种新型的用于小肠疾病诊断的无创检查工具。检查过程需要由检查者吞咽WCE后,随胃肠道蠕动拍摄整个胃肠道的检查图像,并
伴随着"互联网+"行动的推进,互联网技术又一次被推向热潮。然而,世界各国都不同程度地存在通信欠发达地区,有效地缩小城乡"数字鸿沟"是亟待解决的问题之一。这一现象为移动容
本文是在借鉴前人研究成果的基础上,利用QML, Javascript和C++语言在QT Creator平台上,为基于英特尔凌动处理器及嵌入式MeeGo操作系统的平板电脑定制开发的一个电子邮件系统
随着互联网和各种高科技的高速发展和广泛普及,已将我们置身于一个全新的信息时代。而如何获得信息,并将获得的信息为我们所用,显得至关重要。视频作为信息的载体之一,在其中的作
随着经济的快速发展,我国对能源的需求越来越大。我国在煤矿安全方面的工作做的还不是很完善,这就导致了煤矿事故频频发生。煤矿安全成了我们讨论的热门话题。从安全的角度出