分布式数据处理系统中作业性能优化关键技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:s362613932
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各行业中数据规模地增长,分布式数据处理技术被广泛应用于各行业数据分析中。Map Reduce具有使用方便、易于编程、容错性强和高性价比等优势,目前已经成为主流的分布式处理模型,并在各行业的大规模数据分析中得到了广泛的应用。然而随着数据处理需求的不断增长,MapReduce自身存在的一些缺陷也逐渐显露,最常见的缺陷包括:MapReduce中较多的配置参数、不完善的任务调度策略、数据本地化有效性低和资源槽分配不合理等。这些不足导致MapReduce作业执行效率低下。MapReduce作业性能调优是通过优化MapReduce中各方面的不足来改善MapReduce作业性能,使得作业在MapReduce中的执行时间大大降低,因此,MapReduce作业性能优化的研究具有重要的科学意义和应用价值。本文针对MapReduce作业性能优化的若干关键问题进行研究。在总结作业性能优化相关研究成果的基础上,建立了I/O代价函数来阐述配置参数对作业执行时间的重要性;提出了通过特征选择的方法来选择影响作业执行时间的重要参数,同时通过优化数据本地化、数据副本置放策略和任务调度的方法来改善作业执行时间。本文的研究内容和创新点具体包含以下几个方面:(1)通过建立I/O读写字节数和I/O请求数目函数证明了存在部分配置参数会直接影响MapReduce作业的执行时间。并验证了各配置参数对MapReduce作业执行时间的影响程度不同。(2)提出了基于核函数惩罚的聚类特征选择算法(IK-means),解决了MapReduce中因配置参数过多而使得平台管理人员配置困难的问题。在IK-means中,为了准确地判断各特征参数的影响程度,采用各向异性高斯核函数代替了传统的高斯核函数,通过各向异性高斯核函数不同方向的参数(也被称为核宽)来反映每个特征的重要程度。提出利用梯度下降算法来最小化各向异性高斯核的核宽向量,使得所选择的特征进行聚类的效果能最接近原始特征的聚类效果,从而达到特征选择的目的。针对聚类特征选择算法对初始点选择敏感的问题,提出了全局感知的局部密度初始点选择算法。通过理论证明和实验结果表明,本文提出的特征选择算法在配置参数的选择中具有良好的效果。(3)提出了基于二部图最小权匹配的数据本地化算法,解决了MapReduce中同时满足多任务数据本地化的问题,同时提出了动态副本自适应算法,通过热数据的识别解决了动态副本置放技术中的如何确定备份副本的问题。理论论证和实验结果表明动态自适应副本算法有效地支撑了二部图最小权匹配算法,并改善了多任务数据本地化的有效性。(4)提出了满足用户时间需求和资源优化的任务调度算法,利用历史作业描述文件中的时间和资源消耗信息对新作业执行时间和槽资源的消耗进行计算,不仅达到了满足用户时间需求的目的,还解决了MapReduce作业运行过程中资源消耗过高的问题。算法的有效性不仅从作业执行过程的理论分析得到了验证,且实验结果也验证了该算法的在作业执行时间和槽资源消耗的优势1。
其他文献
杨德昌在影片《牯岭街少年杀人事件》中对上世纪60年代的台湾历史进行了客观记录。在影片中我们能够了解“眷村文化“”外省人”与“本省人”的冲突和大半个中国的方言,以及
在社会日益进步的今天,信息化也已逐渐成为了社会发展的主流,同时,信息化也已经在我国得到了更好的发展。而国家在面对信息化社会又逐渐提出了多条改革的方案,其中高中教育教学就
由于实际光源有一定的大小,从而引伸出了薄膜干涉的定域问题。本文从扩展光源对干涉条纹可见度的影响,分析了确定薄膜干涉定域中心及定域深度的方法。
随着计算机技术应用的日益广泛和深入,软件系统的规模和复杂性不断增大,系统各部分之间的交互及时间约束成为软件需求和设计的重要方面。场景规约作为一种有效的、可视化的系
分子影像(Molecular Imaging)是一门近年来不断发展的新颖的影像学科,结合了生物化学、多模态成像技术、生物数学、生物信息学、细胞&分子生理学、生物物理学、药理学等多种
振动压路机和土壤在振动压实过程中构成一个完整的振动系统,机械和土壤之间存在着复杂的动态相互作用,土壤特性影响机械的动态响应,机械参数则决定土壤的压实效果.因此,建立
老年重症肺炎近年来发病率不断增加,患者常因感染、缺氧、酸中毒等多种原因出现低钠血症,严重影响患者预后。但由于低钠血症缺乏特异性的临床表现,易被原发病或其他合并症状