论文部分内容阅读
现阶段,在大数据环境下数据缺失往往是不可避免的一个问题,如何处理这些缺失数据是数据分析领域研究的一个重点问题。数据的缺失往往会给数据分析带来一定的困扰,因为现阶段许多数据分析过程中必须依赖完整的数据集。这就迫使我们寻求一种高效可行的方法来处理这些缺失数据。本文查阅国内外众多文献发现现有对缺失数据处理的方法大多只适应较小的数据量规模、缺失率较低的数据集。在面对处理基因组、蛋白质组、神经影像和其他高通量的这类高维和大规模数据时表现不佳并且需要耗费大量的计算时间。然而在当今社会,由于科技的迅速发展,对于大数据的研究显得尤为重要,通过对海量数据的分析,海量数据会为我们提供更多更有价值的信息。但是现在企业中绝大多数的数据都是非结构化的,而且其中还存在着不少的缺失数据。使得对于大数据的分析研究进程非常缓慢。因此,本文根据随机森林本身具有能处理高维数据且适合处理混合类型的丢失数据的理想特征,改进了一种能在大数据环境下高效处理缺失数据的方法。该算法通过对变量分组,每组轮流作为因变量进行多重响应回归,通过复合多元分裂构建森林,在保证插补精度的前提下提高计算速度。为了验证算法的可行性和适应性,本文从UCI和基因组数据库中选取了40个不同的数据集,对比了现有随机森林插补算法和主流的KNN、EM算法,评估了在不同数据缺失机制下和不同缺失率中各种缺失数据插补算法的性能,并且分析了数据相关性对于缺失数据插补精度的影响。本文实验表明该随机森林插补算法在总体上具有较强的稳定性,并且插补精度随着数据相关性的提高而提高,特别的是当数据非随机缺失时,中度和高度的缺失机制下的插补精度和计算速度都非常高效。