随机森林算法研究及改进

来源 :厦门大学 | 被引量 : 0次 | 上传用户:haosy2966
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林作为一种常见的数据挖掘方法,已被证实是一种state-of-art的学习器,其不仅具有很高的分类回归性能,而且运算快速高效,并且随机森林能有效处理多分类问题,在应对噪声干扰上也具有明显的优势。  但是传统的随机森林模型在树的数量和树的选择中没有深入的研究。另外随机森林在半监督问题上的研究也较少,目前尚无良好的半监督随机森林模型,限制了随机森林的应用范围。本文针对这两个问题,展开了随机森林模型改进的研究。  本文利用随机森林的间隔,设计了一种基于Margin最优化的随机森林修剪模型,定义了每棵树的四种形式的margin评价方式,计算每棵树的margin评价值,采用递归消除的方式,对森林进行修剪,并通过观察OOB准确率来决定修剪的停止。在10组数据集上进行对比试验,显示修剪的模型比随机森林模型具有更优的分类性能,并且相比于其他修剪方式,本文的修剪方式具有明显的优势。另外通过研究修剪过程中margin的变化,对模型的有效性进行解释。  针对半监督随机森林,本文结合了已有的随机森林半监督模型和协同训练模型,建立基于协同训练的随机森林模型,不仅简化了原有半监督随机森林优化中退火过程的步骤,而且通过协同训练,改进了模型学习的方式,很大程度提高了模型的分类性能。另外本文还将随机森林的袋外数据作为半监督模型学习的评价方式,提出了基于OOB准确率变动的停止准则。16个数据集上的对比试验显示,基于协同训练的随机森林模型比传统的半监督随机森林具有更高的分类准确率,是一个优秀的半监督学习模型。
其他文献
回转窑、球磨机等回转筒类过程装备广泛应用于我国化工、冶金、矿业等重要工业部门,但是这些过程装备的运行效率和自动化水平却不容乐观,与工业发达国家相比存在较大差距。其中
目前智能交通系统(ITS)的主要核心技术是车牌识别,而借助于车标识别技术,能更准确地获取车辆信息,为打击犯罪、查处套牌车等提供有利证据。本文对车标识别中的关键技术进行了
空调制冷系统已经得到广泛应用,随之而来的维护和检修工作也变得必不可少。以往对空调制冷系统进行维护,技术人员需要携带多个测量仪器,进行温度、压力等参数的测量。获取过冷度与过热度参数时,需要查询冷媒的热力性质表,并进行计算。上述检修流程使空调制冷系统维护和性能测试的耗时长,费用高,且可测的工质单一。数字式制冷万用表能够对数十种制冷工质进行温度、压力、真空度、过冷度和过热度的测量,提高了测量效率,降低系
在现代工业生产过程中,大量存在复杂非线性系统,这样一类系统由于自身结构和运行环境都极其复杂,存在诸多未知时变参数的影响,容易发生故障,造成不必要的损失。由于目前针对这一类
近年来,由于多智能体系统的一致性问题在计算机通信网络、机器人编队控制、无人飞机等领域有着广泛的应用,引起国内外众多学科的研究学者对它进行研究,得到了大量有价值的研究成
单液流镍锌电池是一种新型的单液型氧化还原液流电池,具有结构简单比容量大等优点。库伦效率是电池充放电过程中的重要参数,是单液流镍锌电池的特性研究中重要参数。目前,在单液流镍锌电池特性的研究中,库伦效率的测量主要通过在不同条件下重复充放电,利用每一次的放电容量除以充电容量计算得到。这种方法存在测量实验时间长和无法在线测量的问题。为确保电池不会出现过冲或过放,在实际使用过程中,需要通过库伦效率和电池最大
随着无线网络技术(蜂窝网络、卫星网络、移动自组网、传感器网络等)的发展,计算机网络已经不再局限于有线、单一同构网络了,而是呈现高度异构化的趋势。由于异构网络存在高误
微生物发酵过程是一个大滞后、多变量、强耦合的复杂非线性系统,内部反应机理十分复杂。为了构建最佳的发酵环境,提高生产效率,就要对发酵过程中的各种过程参量进行监测,以便能使
随着科技的发展和人们生活质量的提高,机器人越来越快地走进了人们的生活。机械臂和机械手作为与环境交互的执行器件,是机器人操作物体的重要方式,也是机器人进行复杂应用的前提
在计算机视觉与模式识别领域中,人脸检测与识别技术是一个非常热门的研究课题,同时也具备非常广阔的商业价值。在诸多的目标检测算法中,基于AdaBoost算法的目标检测方法具有检测