基于欠抽样技术和旋转森林的非平衡类方法研究

来源 :信阳师范学院 | 被引量 : 0次 | 上传用户:xpzcz1994
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为模式识别和机器学习研究领域中最具挑战性和吸引力的问题之一,非平衡类问题引起了越来越广泛的关注,其表现为数据集样本类别分布的高度不平衡。在很多实际问题中,如溢油检测,漏油事件发生的频率较低,但这种事件一旦发生后果比较严重。因此如何有效识别这些感兴趣的少数类样本往往比正确识别多数类样本更加重要。基于欠抽样的组合分类器方法是常用于处理非平衡类问题的有效方法,但该方法使用欠抽样方法获得的数据集往往较小,如何在较少的数据集合上学习具有高准确率的基分类器是该方法成功的核心问题之一。观察到旋转森林比Bagging、Adaboost等方法具有更高的泛化性能,故本文选择旋转森林作为基学习器,以获得高准确率的基分类器。另外旋转森林对数据分布很敏感,相较于支持向量机、神经网络,其更容易学习有差异的基分类器,这是基于欠抽样的组合分类器方法能在非平衡类问题取得成功的另一个原因。因此,本文研究将欠抽样技术与旋转森林方法有效结合起来,提出有效的面向非平衡类问题的高效处理方法。本文的主要工作如下:(1)提出基于欠抽样和旋转森林的组合分类器方法(Ensemble with Undersampling technique and Rotation forest,EUR)。EUR包含EUR-I和EUR-II两种方法。EUR-I使用欠抽样技术从多数类数据集中前抽样获得多个子集,然后将每个子集与少数类组合以获得新数据集,并在新的数据集上使用旋转森林学习每个分类器。因此,EUR-I是组合分类分类器的组合分类器。EUR-II与EUR-I方法类似,其不同之处在于学习每个基分类器之后,移除以高置信度正确分类实例以便下一个基分类器能够更好地关注数据集中难以正确分类的实例。(2)提出基于欠抽样的旋转森林增强算法(Improving Rotation forest with Undersampling technique,IRU)。该方法在EUR方法的基础上进一步将欠抽样技术嵌入到旋转森林算法学习过程中。具体地,从多数类中抽取多个子集,在每个子集上学习一个投影矩阵;在每个投影矩阵定义的空间中,使用欠抽样技术处理将原始数据集获得一个新的训练集,进而在新的训练集上学习一个基分类器。在KEEL数据集上的实验结果表明,较之于传统的基于欠抽样的组合分类器方法,本文提出方法在指标recall、g-mean、f-measure和AUC上表现出显著的优势。
其他文献
随着国家对汉语的大力推广,人们学习汉语的热情不断高涨,在全世界掀起了一股“汉语热”的浪潮。汉字教学作为对外汉语教学的重要组成部分,成为了很多学习者的学习难点。本文通过收集美国波特兰市浩津中学中文沉浸式项目学生在书写汉字过程中出现的偏误语料,在分析这些语料后将其归纳为笔画偏误、部件偏误、整字偏误三类。笔画偏误包括笔形偏误,笔际偏误,和笔画数目增减;部件偏误包括部件变形与变位,部件改换,部件增减和结构
普光气田长兴组主要为生物礁滩相储层。开发方式多为长井段射孔采气,早期各层段采气量大,差异不明显,到开采后期,由于垂向上非均质性较强,各储集段采气贡献度差异大、整体动
液压支架作为综采工作面的主要支护设备,其主要任务是稳定支护工作面顶、底板,防止顶板非正常垮塌,维护工作面采煤设备和运煤设备的高效生产,保护井下工作人员的生命安全。在不同的煤矿工作面,根据煤岩性质、煤层厚度和工作面采高等条件对液压支架的工作性能有不同的要求,但总的来说液压支架都需要具备稳定的支撑能力,可靠的承载能力,以及良好的适应能力。特大采高工作面采高过高,工作面控顶距过大,顶板来压更加剧烈,这对
目的肝细胞癌(Hepatocellular carcinoma,HCC)(以下简称肝癌)是原发性肝癌中最为常见的类型。肝癌组织中常伴有多种代谢功能异常,目前已有研究发现肝组织中存在细胞色素B5B(C
目前,中国特色社会主义已经进入了新时代,我国社会主要矛盾已转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾①。这当中也包括了卫生环境的发展。人民群众对周边环境卫生的要求随着社会发展的不断进步、经济水平的不断提高、文化水平的逐步提升也变得越来越高。但是,基础设施薄弱、城市管理水平低下、人们的卫生意识和健康意识差等问题也同步存在。为了进一步提高人民群众的获得感以及幸福感,各地政府纷纷致力
泡沫混凝土是将气体通过化学或者物理的方式引入水泥浆体中,经过合理养护成型而形成的含有大量气孔结构的混凝土。结构决定性质,相较于常规混凝土而言,其内部大量孔洞的存在使其具有轻质保温、耐火吸声、减震消能等优点,但也导致了其强度较低、硬化时间长、易粉化易开裂等缺点。本文通过正交试验设计了高强泡沫混凝土胶凝材料组成,利用红外光谱分析及扫描电镜解释了硅灰对胶凝材料强度增长的作用机理;在正交试验结果的基础上考
国内许多油气田的开采对象具有埋藏超深、高温、高压、甲烷含量高以及井眼直径小等特点。随着油气开采不断深入,许多油田都进入了开采的中后期,由于井内落物等原因造成的大修
背景及目的:心电图对急性ST段抬高型心肌梗死(ST-segment elevation myocardial infarction,STEMI)患者的评估具有重要的临床意义,目前对ST段的研究较多而对T波的关注相对较少,本研究旨在探讨STEMI患者术前心电图终末部T波倒置的影响因素及其与临床预后的关系。方法:对大连大学附属中山医院行直接经皮冠状动脉介入治疗(primary percutaneous
铁路沿线稳定的无线通信系统是列车安全运行的重要因素之一。我国山区铁路沿线地形复杂,为了避免列车无线通信信号和外界信号相互干扰,通常要将列车的无线通信信号控制在铁路沿线有限空间内传播。因此,实现铁路沿线电波在有限区域内的高效覆盖是提高无线通信质量,进而保障铁路无线控制系统安全运行的重要手段。铁路沿线电波覆盖的研究主要集中在隧道这一单一场景上,对沿线开阔空间、以及包括开阔空间与受限空间接续区域在内的混
目的:通过研究帕金森病(Parkinson’s disease,PD)小鼠模型和临床患者中葡萄糖代谢有氧途径中糖酵解、三羧酸循环与正常对照之间的差异,分析帕金森病对葡萄糖代谢途径有无影响,从而进一步为帕金森病诊治提供新思路。方法:选取20只雄性C57BL/6小鼠随机分为2组,每组10只:A.对照组(生理盐水腹腔注射7天);B.PD模型组(1-甲基-4-苯基-1,2,3,6-四氢吡啶腹腔注射7天)。