利用布隆滤波二次拆分的数据倾斜处理算法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:kkkdddz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MapReduce进行大数据分布式计算时,数据集倾斜特性将导致子任务间完成时间差异明显,影响计算性能。提出基于布隆滤波二次拆分的处理算法。考虑硬件配置、计算资源等约束,提出基于布隆滤波的改进Hash分区函数,缩小映射操作的选择范围。在Reduce阶段设计学习自动机分区算法,使用均匀分布抽样获取任务类型与规模,以Reducer范围为约束条件搜索Mapper与Reducer的近似最优映射。与不考虑Reducer异构的常规算法相比,所提算法网络开销与负载变化率可降低2.4%和28%以上,负载均衡度则提升7.31
其他文献
针对Ceph云存储的数据分布算法CRUSH存在数据在各存储节点上分布不均衡而影响读写QoS性能问题,提出一种基于强化学习的数据分布方法。从算法本身的数据分布过程分析得出PG在O
240×10^4 t/a柴油精制装置在连续2次开工过程中,均出现反应器压降快速升高并致装置停工。分别从原料、垢物、催化剂等方面排查分析,确定造成压降快速升高的主要原因为:
提出一种基于家族遗传算法的虚拟机放置策略FGA-VMP(family genetic algorithm based virtual machine placement)。采用一个自调节的变异算子(mutation operator)避免普通遗
气体热载体干馏工艺是最成熟的油页岩炼油技术。热载体的利用方式、设计思路,决定着整个系统是否高效运转、节能安全。抚顺干馏技术经过近10 a发展,推出了4代不同干馏工艺,新
回首2020年,对于地板行业而言,是比较困难的一年,上半年的疫情让很多地板企业的发展变得缓慢,地板企业、加盟商及消费者都过得单调。但是,有能力有担当的地板人从未退缩,始终