论文部分内容阅读
随着大数据时代的来临,数据成为越来越重要的生产资料,而且数据的规模远远超过单台计算机可以处理的范围,因此近年来涌现出很多分布式计算框架。因为不同的计算场景在实时性、交互性、迭代性等方面各有差异,所以没有一种分布式计算框架适用于所有计算场景。为了节约成本,在很多数据中心中,管理员将多个分布式计算框架部署在同一个计算集群上,使其共享集群的计算、存储和网络资源,并由统一的集群资源管理器进行管理。目前的集群资源管理主要关注计算资源和存储资源,较少的涉及网络资源。但研究表明高效的网络资源管理对于优化作业性能、降低集群成本十分重要。 研究工作提出了一种基于SDN(Software Defined Network)的数据中心网络资源调度机制。该机制可以根据管理员预设的网络资源分配策略,加权的进行网络资源调度,为高优先级的作业分配更多网络资源以优化性能,同时限制低优先级作业的网络带宽占用,以实现不同作业之间的网络性能隔离。本研究的主要贡献:1)提出了一种数据中心网络资源调度机制。目前在数据中心中,可以为高优先级的作业分配更多的计算和存储资源,以加快作业完成时间。作为这类机制的补充,本文提出的方法可以为高优先级的作业分配更多的网络资源,加快作业网络传输,从而优化作业整体完成时间。2)基于SDN设计了框架,并实现了原型系统。基于该框架的灵活性,只需要在控制器端实现策略和算法,直接下发到SDN交换机即可使策略生效。相比于传统的逐个配置交换机和路由器,或者在终端机器上进行网络资源调控,框架具有更好的便捷性和易扩展性。3)对新型数据中心技术、新型网络技术、当前主流大数据处理框架、网络资源分配等相关领域进行了较全面的调研与分析研究,为后续研究工作提供了参考。 论文首先总结了数据中心网络资源管理的背景和重要性,并对相关研究和相关技术进行阐述。其次,基于对网络资源调度模型的需求分析,设计了网络资源调度模型NScheduler的总体架构,并基于开源控制器实现了原型系统。为了验证系统的有效性,基于Xenserver搭建了实验环境并完成系统测试。实验表明,NScheduler能有效地、加权地分配网络带宽资源,并同时保证不同作业之间的性能隔离。最后,论文总结了NScheduler的优势和不足,并对下一步工作提出了展望。