论文部分内容阅读
Web大数据具有数据量大、数据异构性强、挖掘难度大等问题,针对如何提高Web大数据聚类分析准确性并保证数据分析的时效性,本文提出一种基于Hadoop平台和加权马氏距离的Web大数据分析方法。该方法在基于Hadoop平台架构上首先对Web大数据进行预处理和数据切片,然后通过计算得到方差贡献率并作为马氏距离计算的权重,最后通过加权马氏距离计算对数据判定聚类。仿真实验表明,所提方法可以有效地保证Web大数据聚类分析的准确性并具有较高的时效性。