基于组合策略的随机森林方法研究

被引量 : 0次 | 上传用户:sdfffasdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
筛选富含信息的特征变量、搭建性能好的分类模型是机器学习中重要的研究内容。是提高分类性能的主要任务。目前随着计算机技术的发展,搭建一个好的分类模型除了要考虑计算空间和时间复杂度外,更多的是考虑如何提高预测分类准确率。影响分类准确率主要有两个因素:一个是特征;一个是分类器。本文的主要工作是研究特征组合和组合策略对数据分析的影响。在基因、蛋白、代谢等生物信息处理中,通常会存在多个变量组合一起对所研究的对象的分型起作用,因此将多个变量组合参加分类模型的构建,提高分类性能,加深问题的理解,已日益引起人们的关注。本文给出一种基于原始特征与“和”变量的随机森林方法,通过特征组对相加的方式来生成“和”变量,并对“和”变量根据样本分布的聚集程度进行筛选,保留区分能力比对应的两个原始特征大的组合变量。通过高维和低维2组数据的实验表明加入“和”变量的随机森林分类方法在大多数情况下分类性能优于原始随机森林分类方法。其次本文对基于色谱技术的不同产地的烟草样本的分型方法进行研究,通过实际数据分析,给出一种分层组合策略,将5个不同产地的样本的分析分解成2个2类问题和一个3类问题。并分别采用随机森林和支持向量机作为数据处理的基本技术筛选反映5类样本本质差异的特征变量,通过分类模型的性能以及PCA和PLS-DA的辅助分析,证明了该方法的有效性。
其他文献
"一带一路"建设下,中国与中东、中亚以及非洲的能源合作面临不同的发展态势与瓶颈制约:中东地区资源民族主义势力的抬头、资源投资环境的制约以及受到油气合作中不良舆论的负
通过综合应用天然气组分、碳同位素、氢同位素、轻烃及岩石热解碳同位素等地球化学参数,结合地质背景分析,对大港探区深层天然气的成因类型、来源及分布规律进行了研究。结果表
在集成电路的生产制造过程中,晶圆的清洗和干燥工艺是使用最频繁、重复次数最多的工艺过程。清洗结束后,晶圆表面纳米尺度的孔型结构中残留的是异丙醇(IPA)液体。在干燥过程
高功率固体激光器可输出能用光纤传输的近红外波长的光束,且结构稳定性好,峰值功率高。所以,高功率固体激光器在激光加工中有着很广泛的应用前景。而利用双棒或多棒串接技术
电力工业是我国的基础行业之一,它不仅与人们的日常生活息息相关,更为国民经济快速稳定的发展提供了强有力的保障。随着电厂经营规模不断的扩大,业务领域也在不断的拓展,电厂对安
专利战略的实施是企业技术发展从而提高其核心竞争力的根本保障,而专利战略研究是职能部门进行相关专利战略制定和决策的重要依据。高速轨道客车车身焊接技术专利战略研究将为
目的:利用320层螺旋CT分析甲状腺良、恶性结节的影像特征,评价CT在甲状腺结节诊断及鉴别诊断中的临床应用价值。同时通过CTA对甲状腺结节供血动脉的多方面显示,探讨肿瘤内血管
在市场竞争机制作用下,追求农业生产利益最大化导致农户对通过粮食生产提高收入的依赖性降低,进而加深了与国家保护耕地、维持粮食安全宏观目标的矛盾。对市场驱动下耕地利用
近年来我国经济发展速度快速增长,但在经济快速发展的同时,环境污染和资源破坏问题也随之凸显出来。解决环境持续恶化和环境犯罪问题必须有法治作为保障,特别是刑法作为后盾,否
棉花生长期长,水肥需求量大,为满足生产需要,我国长江流域棉区棉花在生产中施肥量不断增加,但棉花产量却没有相应提高,相反却增加了种植成本,并加重了环境负担。本文基于棉花