论文部分内容阅读
针对MapReduee计算模型Hash分区策略易引发Reduce阶段输入数据倾斜问题,提出基于Hash虚拟平衡重分区的数据倾斜处理算法HVBR-SH(Hash Virtual Balance Repartitioning based Skew Handling).HVBR—SH在Map阶段采用虚拟分区,使得〈Key,Value〉键值对分散存储,为后续重分区提供更优分区组合;在Reduce阶段,HVBR—SH利用连续虚拟分区平衡重组的方法将收集到的虚拟分区重新划分成与Reduce任务数相同分区,并确保重分区