论文部分内容阅读
云计算作为一种新兴的计算模式和服务模式,被广泛地应用于互联网和移动计算领域,正在成为新的研究热点。云服务提供商提供虚拟化的基础设施和软件应用服务,根据经济规律动态地管理、监控、维护和支配这些服务。用户与云服务提供商进行协商签订服务水平协议(SLA),按照自身的需求定制计算服务,以按需付费的模式进行计费。 对于各种复杂的云计算任务,通常由多个计算资源和存储资源协同工作,共同执行任务,然而往往云平台的故障和性能退化会影响最后作业的完成时间。尽管许多文献提出过传统分布式系统中的任务调度问题,然而在云计算框架下,任务调度的目标和特点已经发生改变。云环境下的调度问题通常是多目标的,需要考虑较多的因素,如任务的时间跨度、负载均衡、用户的服务质量要求等,这些目标之间并不完全兼容,需要从整体目标出发考虑各个目标之间的关系,特别是在处理一些如工作流等具有任务依赖关系的复杂任务。此外,云计算平台资源池中的资源是共享的,云服务提供商会根据需要进行一定的维护工作如合并虚拟机或迁移虚拟机,这些维护工作会导致使用中的虚拟资源发生性能下降甚至故障。更重要的是用户在使用云资源时,在满足基本的时间和费用要求时,还需要考虑安全方面的需求如保护用户隐私和数据。 本文根据现有的云计算任务调度策略,基于云环境中资源节点的安全问题和可靠性问题,提出基于马尔可夫决策过程的云计算任务调度策略。本文的研究工作主要涵盖了以下3个方面的内容: (1)针对云计算系统中任务调度的可靠性问题,建立了云平台的服务可靠性模型,其中考虑到网络节点的失效因素和网络拥塞问题,作为设计可靠的云系统的依据和评估方法。 (2)本文根据云计算平台可能发生的故障和性能退化问题提出基于安全模型和最优容错期限相结合、基于马尔可夫决策过程的任务调度容错策略。 (3)本文在仿真平台CloudSim上实现了文中提出的基于马氏过程的容错任务调度策略。通过与ICPGP任务调度算法和遗传算法的比较,表明利用基于马尔可夫决策过程的任务调度能够提高云系统平台的可靠性。