基于随机森林的大数据下数据缺失插补方法

来源 :长江大学 | 被引量 : 7次 | 上传用户：cfj4208

【摘要】

：

现阶段,在大数据环境下数据缺失往往是不可避免的一个问题,如何处理这些缺失数据是数据分析领域研究的一个重点问题。数据的缺失往往会给数据分析带来一定的困扰,因为现阶段

【作者】

：

余泽禹

【出处】

：

长江大学

【发表日期】

：

2018年01期

【关键词】

：

数据缺失大数据随机森林数据插补

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现阶段,在大数据环境下数据缺失往往是不可避免的一个问题,如何处理这些缺失数据是数据分析领域研究的一个重点问题。数据的缺失往往会给数据分析带来一定的困扰,因为现阶段许多数据分析过程中必须依赖完整的数据集。这就迫使我们寻求一种高效可行的方法来处理这些缺失数据。本文查阅国内外众多文献发现现有对缺失数据处理的方法大多只适应较小的数据量规模、缺失率较低的数据集。在面对处理基因组、蛋白质组、神经影像和其他高通量的这类高维和大规模数据时表现不佳并且需要耗费大量的计算时间。然而在当今社会,由于科技的迅速发展,对于大数据的研究显得尤为重要,通过对海量数据的分析,海量数据会为我们提供更多更有价值的信息。但是现在企业中绝大多数的数据都是非结构化的,而且其中还存在着不少的缺失数据。使得对于大数据的分析研究进程非常缓慢。因此,本文根据随机森林本身具有能处理高维数据且适合处理混合类型的丢失数据的理想特征,改进了一种能在大数据环境下高效处理缺失数据的方法。该算法通过对变量分组,每组轮流作为因变量进行多重响应回归,通过复合多元分裂构建森林,在保证插补精度的前提下提高计算速度。为了验证算法的可行性和适应性,本文从UCI和基因组数据库中选取了40个不同的数据集,对比了现有随机森林插补算法和主流的KNN、EM算法,评估了在不同数据缺失机制下和不同缺失率中各种缺失数据插补算法的性能,并且分析了数据相关性对于缺失数据插补精度的影响。本文实验表明该随机森林插补算法在总体上具有较强的稳定性,并且插补精度随着数据相关性的提高而提高,特别的是当数据非随机缺失时,中度和高度的缺失机制下的插补精度和计算速度都非常高效。

其他文献

桑叶黄酮对α-糖苷酶活性的影响

目的:观察桑叶提取物桑叶黄酮对α-糖苷酶活性的影响及其对小鼠餐后血糖的影响。方法:实验于2005-07/10在解放军总医院营养科实验室和动物中心实验室进行。在体外实验中,设立

期刊

桑叶黄酮α甘露糖苷酶树脂类合成

新课标下高中历史情景式教学的几点思考

随着我国新课标的实施,对高中历史教学也提出更高要求.在教学中运用情景式教学,可以有效提高学生对历史学科的兴趣,突出学生的课堂主体地位,进而培养学生的历史素养.本文主要

期刊

新课标高中历史情景式教学分析阐述

移动通信中智能天线自适应算法简介

智能天线是第三代移动通信系统中的关键技术之一,其自适应算法按照是否需要利用系统的导频信息分成非盲算法、盲算法和半盲算法三类,文中对每类中的各种算法进行了相应的阐述

期刊

智能天线自适应算法导频符号子空间

局部应用维生素C和云南白药治疗鼻中隔糜烂83例

期刊

鼻中隔糜烂局部应用维生素云南白药

基层医疗保险经办机构基金的内部控制管理研究

在我国社会经济发展与转型的新时期,我国的医疗保险体系也在不断地健全与完善。在这种形势下,要想进一步满足人们对于医疗保险基金的安全需求,提升基层医疗保险经办机构的工

期刊

基层医疗保险经办机构基金内部控制管理研究

杂多酸催化氧化合成环氧环己烷

采用杂多离子复合相转移催化剂,以环己烯为原料,以低浓度过氧化氢为氧源较高收率的合成了环氧环己烷。与传统的环氧化工艺相比,此工艺路线具有工艺简单、污染少、收率高及工

期刊

环氧环己烷环己烯环氧化反应催化氧化

基于随机森林的大数据下数据缺失插补方法

其他学术论文