论文部分内容阅读
云计算作为解决大数据和分布式计算的主要技术手段,将集群资源以按需服务的方式提供给最终用户,而如何有效合理地分配资源和调度任务,已成为影响云计算应用效率的重点与难点,直接影响着云平台的整体性能和用户的使用满意度。云环境下集群主机节点存在着大量的异构性、多样性、不确定性和模糊性,很难准确地对资源和任务进行描述,如何分配资源去完成具有不同需求的作业任务存在复杂性。而基于模糊聚类的云资源划分和云任务调度已经成为业界的研究热点,但是随着集群规模不断壮大,云环境下拥有的主机数量已达到成千上万的规模,随之而来的问题是传统串行的模糊聚类划分算法在应对高维、超高维矩阵运算时存在运算量大、运算效率低、运算空间不足等问题,导致聚类耗时过长,无法满足云计算环境中集群资源聚类的时效要求。因此,需要对传统串行模糊聚类算法进行优化和改进,才能更好地应用于云计算领域。首先,针对应用于云计算环境下的传统串行模糊聚类划分算法进行研究,对比分析了三种传统聚类算法(传递闭包法、最大树法和编网法),并总结了它们的特点和不足,提出了基于模糊等价关系和模糊相似处理的优化和并发策略,能够减少聚类的运算量,提高聚类运算效率,大幅缩短聚类耗时。实验结果表明,提出的优化和并发策略能够有效解决现有工作在面对中小规模云集群资源聚类划分过程中聚类耗时开销过大的问题。然后,针对现有工作在面对大规模集群资源聚类运算时,传统模糊聚类算法始终存在的运算内存不足、计算量超大,直接导致无法进行云集群资源聚类划分运算的问题,提出一种基于MapReduce框架的模糊聚类算法并行化实现方案,并提出通过构造一个同构小型云去调度一个异构大型云的设想。实验结果表明,提出的并行策略具有良好的加速比和扩展性,能够有效解决现有工作在面对大规模云集群时无法进行资源聚类划分的问题;并通过与并发策略结合使用,可适用于各种规模的云集群资源模糊聚类划分工作。最后,针对现有Hadoop调度算法在异构性方面存在的调度效率低下的问题,将并发和并行后的模糊聚类研究成果应用到Hadoop集群的资源划分工作中,提出了一种基于模糊聚类和性能评分机制的Hadoop调度器(FC-PS Scheduler),并通过仿真实验说明了FC-PS Scheduler的有效性。