基于非平衡数据的随机森林算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:JohnWaken19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单分类器在处理分类问题时经常遇到瓶颈,用组合或者是集成思想,将这些单分类器结合起来,往往可以得到不错的效果.随机森林算法作为一种应用广泛的分类算法,其本质上就是一种组合分类器.该算法使用Bootstrap重抽样方法抽取若干个训练样本,并用这些训练样本构建一个树形分类器的集合,然后使用该集合通过投票进行分类.在随机森林算法中,对于非平衡数据分类问题,由于传统的Bootstrap重抽样方法采取随机抽取数据集,使得用于构造基分类器的训练样本集的非平衡系数发生了改变,导致训练样本集成为无效样本集.这种情况对于处理非平衡数据问题不仅没有帮助,还因为在随机森林算法中决策树之间地位的相等,影响了最终投票结果,进而降低算法的分类性能.针对此问题,本文提出了一种改进的Bootstrap重抽样方法.通过对抽样的结果设定基于非平衡系数的阈值,保证训练样本集的质量,从而提升生成决策树的性能,使得投票结果更加准确,进而提高了整体算法对非平衡数据的分类性能.对非平衡分类问题,由于Bootstrap重抽样方法的随机性,从而得到不同决策树的分类性能差异较大.作为一种组合的分类器,随机森林算法是通过投票算法将决策树组合在一起,但是其投票规则并没有考虑到基分类器之间的差异,进而影响了分类效果.为了提高分类效果,本文提出了一种基于非平衡系数的加权随机森林算法.通过非平衡系数来判别基分类器的分类性能,并以此为依据进行加权.实验数据采用来自KEEL数据集仓库中12个非平衡二类分类数据,这些数据集的非平衡系数分布在1.25到42范围内,通过实验可以证明上述两种改进均可以在一定的程度上提升随机森林算法处理非平衡数据分类问题的能力.其中在改进Bootstrap重抽样方法的基础上,进行的基于非平衡系的加权随机森林算法的改进,可以进一步提升算法分类性能.
其他文献
以集对论为基础,依据财政部预算司提出的医疗卫生财政支出绩效评价指标和绩效评价等级级别,对绩效等级评价值进行同一性、差异性和对立性分析,建立了集对评价分析模型。以联系度
教学情境是教师为了增强教学效果,根据教材内容和学生的特点,有目的地引人或创设与内容相适应的教学环境。情境教学不仅可以使学生容易掌握有关知识和技能,而且可以触“境”生情,更好地体验教学内容中的情感,使枯燥、抽象的知识变得生动形象、富有情趣。那么,怎样才能创设有效的教学情境呢?    一、创设生活教学情境    回归生活是课堂改革的呼唤。思想品德课的内容与现实存在着密切的联系,但是由于一些教师不能采取
为了对回收物流进行有效管理,对回收品采用批量修复的方式,构建了基于定期处理的回收物流确定型和随机型库存控制模型,得出了确定模型的最优决策变量;同时将确定模型的最优订货批
中科院近物所高电荷态ECR(电子回旋共振)离子源主要为重离子加速器和原子物理和表面物理实验提供高品质束流,近几年,经过不断的努力,离子源的性能有了很大程度的提高,在使用1
认真贯彻落实党中央、国务院和兵器集团、地方政府决策部署,积极响应集团和省、市等地方防控疫情工作要求,江南工业集团有限公司及时响应,稳健落实,切实做好新型冠状病毒感染
近年来,办学实践中出现了一系列学生状告学校侵权的法律纠纷和案件。从刘燕文诉北京大学拒绝颁发博士毕业证书、学位证书案,到田永诉北京科技大学拒绝颁发本科毕业证书、学士
通过亚里士多德和康德的德福观和早期儒家德福观的比较,我们发现中西德福观之间有着一定的相通性和具体理解上的差异性。他们都强调德福一致的道德应当性,都承认德性对幸福的优
目的:研究肉苁蓉苯乙醇总苷(CPhGs)的抗肝癌作用,并探讨其可能的作用机制.方法:采用前肢右侧腋部皮下注射法建立小鼠肝癌H22荷瘤模型,实验设空白对照组、肝癌H22荷瘤模型组、肝复
清末民初华洋诉讼双轨理案体制的产生及其司法实践,不仅是中国司法制度的进步,同时也在维护中国司法主权上迈出了新的步伐.一方面,它促使华洋诉讼纳入了相对“规范化”和“程
利用2014年中国科学院心理研究所第三期社会调查数据,解析城乡居民的社会心态。城乡居民对生活状况基本满意,对国家经济发展形式比较乐观。生活压力相对较大的方面为"养老问