论文部分内容阅读
无共享架构的计算机集群是大数据处理和分析的主要计算平台。在集群计算中,数据分区和采样是加快大数据计算和增加可伸缩性的两种基本策略。在本文中,我们对大数据处理和分析方面的数据分区和采样的方法和技术进行了全面的概述。另外,还总结了Hadoop集群上基于采样的近似方法的流行策略和相关工作。本文认为,应将数据分区和采样一起考虑,以建立在计算和统计方面均可靠的近似群集计算框架。