随机森林算法的优化改进研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户:kcl770514
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林算法是一种普适性良好的分类算法,适用范围广且不易过拟合。但是随机森林算法仍有一些不足,还有改进的空间。本文介绍了分类算法和随机森林算法的思想原理,在相关研究现状等基础上,提出了一些改进算法,具体工作有:(1)研究了不同分类算法,选择UCI数据进行仿真,总结了全面的评价指标后,对比了逻辑回归、朴素贝叶斯、神经网络、支持向量机和随机森林算法的效果,实验表明随着数据不平衡程度加大,随机森林算法效果普遍优于其他算法,具有优越性;(2)针对不平衡数据处理和SMOTE采样算法的缺点,提出CURE-SMOTE算法。实验选择人工数据和UCI不平衡数据,对比了原始数据、随机采样、SMOTE采样、Borederline-SMOTE1、safe-level-SMOTE、C-SMOTE、Kmeans-SMOTE采样分类结果,发现本文提出的算法更接近原始数据分布,且引入噪声最少,分类效果较佳,验证了算法有效性和可行性;(3)特征选择和参数也是影响算法性能的关键因素。本文提出基于随机森林的智能算法特征选择和参数优化混合算法,通过二进制编码,对树的规模、子属性个数和特征选择同时搜索,以最小化袋外数据误差为目标函数。实验选择高维二分类和多分类数据,对比了无特征选择下,参数传统取值和混合遗传随机森林、混合粒子群随机森林和混合鱼群随机森林算法的结果,从F值、G-mean、AUC和OOB error等多个指标表明该算法可以提高随机森林的性能,为特征选择和参数优化提供了新思路。
其他文献
k最短路径问题是最短路径算法的重要分支,也是图论和网络优化研究的主要问题之一。在不同的情况下,我们除了要考虑最短路径问题外,还有可能需要考虑次短路,次次短路...,即寻
设G是一个群,A和B是G的两个有限子集,集合积AB定义为AB={ab|a∈A,b∈B)。定义函数μG(r,s)=min{|AB|:A,B()G,|A|=r,|B|=s}。   本文主要研究G为pq阶非交换群时,μG(r,s)的值的情
醋酸仲丁酯有广泛的用途,可以应用在化工、医疗、食品等行业,在传统的醋酸仲丁酯生产中,常利用醋酸和仲丁醇反应合成,这种方法生产成本比较高,利用正丁烯法生产醋酸仲丁酯,能有效的
随着国民经济的发展,压力容器被越来越广泛地应用于各个领域,由于其特殊性我国把压力容器的设计、制造、安装、使用、检验、修理、改造七个环节进行行为和活动的规范并实施全方
本文主要研究了套代数上的Jordan和Lie triple可导映射,全文共分四章.第一章介绍一些基本概念,专业术语,问题背景,并且给出了本文的主要结论;第二章证明了套代数上Lie triple可导
本研究以Lagrange展开定理为主线,试图建立组合反演的一般理论。主要包括:第一章简单介绍了Lagrange展开定理(反演)和组合反演方法的发展历史.同时给出了本文后续各章所需的形
物体的中轴(骨架)是原物体(图形)的一种简化表示,骨架有细、居中、连续、可重建、一一对应的特点。正是由于骨架的以上特性,使得骨架比物体形状或形状的轮廓在噪声和扭曲中更
首先在广义近似空间(U,R)中,通过对二元关系的提升,研究了提升后的广义近似空间(P(U),R)的性质及与原广义近似空间(U,R)的联系,当(U,R)是拟序集时,得到了两者之间序同态及同
业务流程模型主要由数据流和控制流两部分组成,这两者及其之间的关系包含了业务流程的建模、模型的分析与执行的重要信息,对流程模型的结构和行为有重要的约束作用。工程师在
发电厂的厂用机械,如给水泵、循环泵、凝结泵、凝升泵、引风机、送风机、排粉机、磨煤机、碎煤机、一次风机、灰浆泵等都是用电动机来拖动。这些机械在极短的时间停止运行,也足