基于随机森林的大数据下数据缺失插补方法

来源 :长江大学 | 被引量 : 7次 | 上传用户:cfj4208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现阶段,在大数据环境下数据缺失往往是不可避免的一个问题,如何处理这些缺失数据是数据分析领域研究的一个重点问题。数据的缺失往往会给数据分析带来一定的困扰,因为现阶段许多数据分析过程中必须依赖完整的数据集。这就迫使我们寻求一种高效可行的方法来处理这些缺失数据。本文查阅国内外众多文献发现现有对缺失数据处理的方法大多只适应较小的数据量规模、缺失率较低的数据集。在面对处理基因组、蛋白质组、神经影像和其他高通量的这类高维和大规模数据时表现不佳并且需要耗费大量的计算时间。然而在当今社会,由于科技的迅速发展,对于大数据的研究显得尤为重要,通过对海量数据的分析,海量数据会为我们提供更多更有价值的信息。但是现在企业中绝大多数的数据都是非结构化的,而且其中还存在着不少的缺失数据。使得对于大数据的分析研究进程非常缓慢。因此,本文根据随机森林本身具有能处理高维数据且适合处理混合类型的丢失数据的理想特征,改进了一种能在大数据环境下高效处理缺失数据的方法。该算法通过对变量分组,每组轮流作为因变量进行多重响应回归,通过复合多元分裂构建森林,在保证插补精度的前提下提高计算速度。为了验证算法的可行性和适应性,本文从UCI和基因组数据库中选取了40个不同的数据集,对比了现有随机森林插补算法和主流的KNN、EM算法,评估了在不同数据缺失机制下和不同缺失率中各种缺失数据插补算法的性能,并且分析了数据相关性对于缺失数据插补精度的影响。本文实验表明该随机森林插补算法在总体上具有较强的稳定性,并且插补精度随着数据相关性的提高而提高,特别的是当数据非随机缺失时,中度和高度的缺失机制下的插补精度和计算速度都非常高效。
其他文献
目的:观察桑叶提取物桑叶黄酮对α-糖苷酶活性的影响及其对小鼠餐后血糖的影响。方法:实验于2005-07/10在解放军总医院营养科实验室和动物中心实验室进行。在体外实验中,设立
'幼儿园教育活动设计与实践'(以下简称'活动设计')是学前教育专业的核心课程,在这门课程的教学过程中出现了教学方法欠缺,学生学习兴趣不足等问题.作者在教
随着我国新课标的实施,对高中历史教学也提出更高要求.在教学中运用情景式教学,可以有效提高学生对历史学科的兴趣,突出学生的课堂主体地位,进而培养学生的历史素养.本文主要
智能天线是第三代移动通信系统中的关键技术之一,其自适应算法按照是否需要利用系统的导频信息分成非盲算法、盲算法和半盲算法三类,文中对每类中的各种算法进行了相应的阐述
随着我国科学技术的不断发展,在电气工程领域也取得了相当优异的成绩,作为现代科技的主要学科之一,对电气领域电动给水泵液力耦合器的研究也显得更加具有实际意义,其作为电气领域
在我国社会经济发展与转型的新时期,我国的医疗保险体系也在不断地健全与完善。在这种形势下,要想进一步满足人们对于医疗保险基金的安全需求,提升基层医疗保险经办机构的工
小学语文是九年义务教育中非常重要的一门基础学科,它不仅关系到其他基础学科的学习效果,还关系到学生个人的全面发展,因此让学生学好语文尤为重要。要想让学生学好语文,首先必须
采用杂多离子复合相转移催化剂,以环己烯为原料,以低浓度过氧化氢为氧源较高收率的合成了环氧环己烷。与传统的环氧化工艺相比,此工艺路线具有工艺简单、污染少、收率高及工
随着采矿技术的不断提升,尤其是在现代技术手段全面改善的大背景下,通过信息技术的处理,能大大的提高采矿的水平,并通过智能化计算程序的巧妙结合,从多方面挖掘采矿工业的全新发展