论文部分内容阅读
Spark是基于内存的分布式数据处理框架,其shuffle过程中大量数据需要通过网络传输,已成为Spark最主要的瓶颈之一。针对shuffle过程中存在的数据分布不均造成不同节点网络I/O负载不均的问题,设计了基于task本地性等级的重启策略,进一步提出了均衡的调度策略来平衡各节点的网络I/O负载。最后通过实验验证了优化机制能够减少计算任务的执行时间,提升整个shuffle过程的执行效率。