基于分层子空间的分布式随机森林算法优化

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:cpu1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何高效地挖掘数据中的价值信息是大数据时代需要重视和解决的问题。随着各种新事物如云计算和物联网技术等信息传播方法的不断出现兴起,数据规模以每两年增长两倍的速度持续增长。数据在各个领域的应用价值变得比以往任何时候都重要,其中包含着大量的价值信息。大数据最显著的特点是其包含的数据量很大,但对数据来说其信息密度却很低,挖掘不够有效会严重浪费人力、资源等等。为了有效地解决这个问题,对各种机器学习算法改进的研究变得十分必要。随机森林算法作为现如今举足轻重的一个机器学习算法,不仅在预测时准确度较高,而且具有良好的适用性。随机森林算法可适用于大部分大数据集,已经被广泛的应用在很多领域。随机森林算法的优点之一是其可以并行运行,这是大数据时代提高机器学习算法性能的重要途径。本文主要研究了基于分布式平台Spark的随机森林算法。首先搭建HDFS(Hadoop Distributed File System)和YARN(Yet Another Resource Negotiator)为底层的Spark集群环境,然后在集群环境中研究算法的优化改进。主要研究内容如下:(1)加权分层子空间随机森林算法。研究强弱特征层的分类能力,提出一种加权分层子空间随机森林算法。采用随机森林特征评估对特征空间进行加权,同时可以筛选掉一些噪声数据,然后根据权重比率进行分层取样。实验验证改进算法有效地提高了模型的准确率。(2)基于因子分析的随机森林算法。通过研究特征之间相关性,提出一种基于因子分析的随机森林算法。在特征空间内采用因子分析算法进行处理,研究特征之间的相关性,然后根据相关性划分分层子空间。实验验证这种方法可以有效地增强决策树的分类强度,提高模型的泛化性能。(3)组合随机森林算法。通过对特征层和投票机制的进一步研究,提出一种组合随机森林算法。将加权分层子空间随机森林算法和基于因子分析的随机森林算法进行组合,提出一种新的特征分层方式,并且结合权重树随机森林算法组成组合随机森林算法。通过分析实验结果得出该算法有较好的预测准确率,并且有效地提高了模型的泛化性能。综上所述,改进后的分层子空间随机森林算法比传统的随机森林算法预测正确率更高,其学习模型更加稳定,对于原始的随机森林算法其拥有更小的泛化误差。
其他文献
超分辨算法是阵列测向的关键技术之一,但在当前理论向工程化转型的发展阶段中,传统的超分辨测向算法面临的计算复杂度高、阵列结构依赖性强等缺陷,这些缺陷已成为制约测向理
射流广泛地应用在不同的工业领域,例如,气体燃料的混合过程,微射流主动冷却控制,飞行器的噪声控制等。理解射流的混合机制,控制射流的混合过程,对于强化燃烧、减噪具有重要研
《中华人民共和国民事诉讼法》规定起诉必须有具体的诉讼请求,但何谓“具体”的诉讼请求,现行《中华人民共和国民事诉讼法》并没有予以明确,相关司法解释也没有对诉讼请求如
近红外光主动照射技术可以实现全黑环境下的成像,因此被广泛应用于安防监控方面。但近红外监控视频中的人脸往往呈现不同的姿态角度。对于可见光下的人脸识别,姿态变化会带来
本论文是关于蜚蠊目姬蠊科分子系统发育关系的研究。姬蠊科是蜚蠊目最大的科,世界性分布。论文基于西南大学蜚蠊分类研究课题组对中国姬蠊科经典分类深入研究的基础上,使用线
本文利用桥联双β-酮亚胺配体 O[C6H4-2-N=C(CH3)CH2C=O((C6H5)]2(L1H2),O[C6H4-2-N=C(CH3)CH2C=O(CF3)]2(L2H2)和[CH20C6H4-2-N=C(CH3)CH2C=O(C6H5)]2(L3H2)为辅助配体,合成
功能连接的频率选择性可以反映神经元频率调谐的相似性,频率调谐相似性越高的神经元其功能连接强度越强,神经元之间的功能交互程度也就越高。此前的研究已经证实人脑听觉皮层
无线技术迅速发展使移动设备数量呈爆炸式增长,为减轻基站负担和提高资源利用率,提出了设备到设备通信(Device-to-Device Communication,D2D通信)。但是直接D2D通信更适用于
随着世界贸易不断加深,航运业发展壮大,船舶逐渐向大型化、快速化转型。传统的利用巡航船开展巡航的模式受到了制约,视野范围小、反应速度慢,无法统合全局信息,无法持续有效
在如今数字图像作为流行的信息传播形态之一,所具有的直观、形象和生动等特点使其被各行业所广泛的应用。尤其是在政治、经济和教育等行业,多媒体数字信息作为信息传递的载体