论文部分内容阅读
如何高效地挖掘数据中的价值信息是大数据时代需要重视和解决的问题。随着各种新事物如云计算和物联网技术等信息传播方法的不断出现兴起,数据规模以每两年增长两倍的速度持续增长。数据在各个领域的应用价值变得比以往任何时候都重要,其中包含着大量的价值信息。大数据最显著的特点是其包含的数据量很大,但对数据来说其信息密度却很低,挖掘不够有效会严重浪费人力、资源等等。为了有效地解决这个问题,对各种机器学习算法改进的研究变得十分必要。随机森林算法作为现如今举足轻重的一个机器学习算法,不仅在预测时准确度较高,而且具有良好的适用性。随机森林算法可适用于大部分大数据集,已经被广泛的应用在很多领域。随机森林算法的优点之一是其可以并行运行,这是大数据时代提高机器学习算法性能的重要途径。本文主要研究了基于分布式平台Spark的随机森林算法。首先搭建HDFS(Hadoop Distributed File System)和YARN(Yet Another Resource Negotiator)为底层的Spark集群环境,然后在集群环境中研究算法的优化改进。主要研究内容如下:(1)加权分层子空间随机森林算法。研究强弱特征层的分类能力,提出一种加权分层子空间随机森林算法。采用随机森林特征评估对特征空间进行加权,同时可以筛选掉一些噪声数据,然后根据权重比率进行分层取样。实验验证改进算法有效地提高了模型的准确率。(2)基于因子分析的随机森林算法。通过研究特征之间相关性,提出一种基于因子分析的随机森林算法。在特征空间内采用因子分析算法进行处理,研究特征之间的相关性,然后根据相关性划分分层子空间。实验验证这种方法可以有效地增强决策树的分类强度,提高模型的泛化性能。(3)组合随机森林算法。通过对特征层和投票机制的进一步研究,提出一种组合随机森林算法。将加权分层子空间随机森林算法和基于因子分析的随机森林算法进行组合,提出一种新的特征分层方式,并且结合权重树随机森林算法组成组合随机森林算法。通过分析实验结果得出该算法有较好的预测准确率,并且有效地提高了模型的泛化性能。综上所述,改进后的分层子空间随机森林算法比传统的随机森林算法预测正确率更高,其学习模型更加稳定,对于原始的随机森林算法其拥有更小的泛化误差。