论文部分内容阅读
在当今的现实生活中存在着很多种微信息量的数据,如何采集这些数据中的信息并进行利用,成为了数据分析领域里一个新的研究热点。机器学习方法是处理这样的数据的理想工具。随机森林以它自身固有的特点和优良的分类效果在众多的机器学习算法中脱颖而出。随机森林算法的实质是一种树预测器的组合,其中每一棵树都依赖于一个随机向量,森林中的所有的向量都是独立同分布的。
本文旨在总结当前对随机森林研究,通俗地介绍随机森林的构造原理,使得随机森林被初学者易于接受。本文给出了随机森林的数学上的理论依据,并通过推导出:随机森林的分类效果与两个元素有着直接的联系,一个是单个分类器在组合分类器中的分类效能,另一个是随机森林中分类器之间的相关性。本文简单的介绍了众多随机森林的构造方法的几种常用方法。作为随机森林广泛应用的例子,本文介绍了随机森林在经济、文本分类和医学上的应用。其实还有很多的应用等着我们去开发。本文在最后还概括的给出了随机森林的回归模型,并与支持向量回归模型和一般线性回归进行了比较。Weka是一个开放的程序。在Weka中包括了很多常用的机器学习方法,随机森林也在其中,所以本文给出了Weka的介绍。
本文中提到随机森林的很多优点,但是随机森林在构建方式,编程处理及回归研究等方面还有很广泛的发展空间。需要我们共同的努力才能将随机森林发展的更好。