论文部分内容阅读
随着科技的发展,大数据时代已经来临,在大数据时代,数据呈现爆炸式的增长。大数据给传统的机器学习方法带来很大的挑战,随机森林算法由于其良好的表现受到各界广泛关注。由于大数据的海量、复杂多样、变化快的特性,大数据带来两个问题:一个是机器学习算法运行时间长,不能在可接受的时间内提供结果。二是:数据维度高,冗余大,传统的随机森林回归算法没法得到理想的效果。为了解决这些问题,本课题对传统随机森林回归的改进及其并行化展开了研究。针对数据维度高,冗余大,传统的随机森林回归算法没法取得理想的效果这一问题,有文献提出改进传统随机森林算法中随机抽取特征为带权重的特征抽取。但是我们通过分析发现:大多数的相关研究都是针对分类问题,对于回归问题鲜有讨论,而很多针对分类的方法并不能直接应用到回归问题上;并且对特征权重衡量的方法,几乎都默认特征之间是独立的,但是在现实环境中,往往不是这样的。所以本课题针对回归问题采用了一种能将特征之间关系考虑在内的特征权重衡量算法,并且使用了两种方法进行特征抽取。同时我们进一步分析发现:将随机抽取特征改为带权重的特征抽取虽然提高了分类回归树模型的精度,但是同时增大了树模型之间的相关性,树模型之间的多样性减小,进而有可能影响随机森林回归算法整体的表现。针对这些问题,本文提出了一种双权重随机森林回归算法,除了给特征加权重以提高分类回归树的精度,同时对生成的分类回归树模型加权重,以期通过双权重的方法兼顾分类回归树的精度和多样性,以改善随机森林回归算法最终的预测性能。为了解决给分类回归树模型加权重的问题,本课题提出了两种新的能兼顾模型树精度和模型树之间多样性的模型权重计算方法:有放回的向前搜索的方法和基于多样性计算的方法。本文将这两种模型权重计算方法与两种特征抽取方法两两组合成四种双权重随机森林回归算法,并通过实验分析效果。针对大数据环境下,机器学习算法运行时间长,不能在可接受的时间内提供结果的问题,本文对双权重随机森林回归算法进行并行化设计与实现并通过实验分析并行化效果。