不均衡数据的特征选择

来源 :山东大学 | 被引量 : 0次 | 上传用户:wangaijjuan860610
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代通信5G技术和各种智能化技术的迅速发展,当今社会毋庸置疑已经逐步踏入了信息化大数据时代。无论是现实生活还是虚拟网络上,越来越多的数据被源源不断地产生,数据的类型也越来越纷杂,这在为机器学习、数据挖掘等领域带来充足支持的同时也带来了许多挑战。在大数据时代数据挖掘领域常面临着高维数据问题,此时就需要使用特征选择方法筛掉数据中的信息冗余数据和噪音数据。生活中遇到的分类问题常出现数据不均衡的情况,例如人脸识别、客户流失、邮件过滤以及文本分类。数据不均衡分类问题和高维数据问题常常重叠出现,而数据不均衡问题会使选择特征的过程中更具偏向性,因此本文重点研究数据不均衡对特征选择的影响及解决方法。本文在原有relief特征选择算法基础上提出先使用kmeans-smote升采样再运用relief进行特征选择,利用python工具在uci数据库中MUSK数据集中进行效果验证,对比两个特征选择在三种分类算法上的模型性能。除此之外本文还探究了三种特征选择方法和三种分类算法在不均衡数据集上的搭配选择。
其他文献
目前建筑工程市场环境瞬息万变,建筑工程材料价格上浮和下调频率非常明显,面对巨大的价格波动建筑企业经营暴露出巨大的风险。原材料费用占建筑工程总成本的60%左右,运用期货等衍生品金融工具对工程原材料进行套期保值,锁定原材料价格波动的风险,是建筑企业实现目标利润的一个新的有效手段。尽管我国推出了一系列建筑工程材料有关期货,但由于期货波动较大,且建筑企业对金融衍生品的不熟悉会导致经常有套期保值过程失控的情
随着全球化进程的深入,中国能源类企业积极参与各项对外直接投资(OFDI)活动,在此过程中,它们不仅面临着内部融资壁垒,还需应对错综复杂的外部融资环境。因此,如何优化内外融资生态,并提高能源类企业的OFDI效率已成为众多学者研究的课题。首先,本文分析了影响企业OFDI效率的融资生态因素,从理论上总结了经济、金融、产业支持、内部控制和财务经营等生态因子通过不同路径对企业OFDI效率的影响机制,并提出相
近些年来,我国城市地铁建设进入快速发展阶段,在进行地铁区间隧道施工时浅埋暗挖法因其机动灵活、适应性广及对周围环境影响小而得到了广泛的应用,但对于在特殊地层中进行暗
目的探讨骨骼肌急性损伤后24小时内介入运动和按摩对肌卫星细胞激活关键因子胰岛素样生长因子(IGF-1),以及肌卫星细胞增殖通路丝裂原活化蛋白激酶(MAPK)/丝裂原活化蛋白激酶激酶(MEK)/细胞外调节蛋白激酶(ERK)1/2的影响。方法40只SPF级成年雄性Sprague-Dawley(SD)大鼠随机分为六组:对照组(A组,n=8)、模型组(B组,n=8)、按摩组(C组,n=8)、跑台运动组(D
种子活力是决定种子或种子批在发芽和出苗期间的活性水平和行为特征的综合表现,是种子质量的重要指标。黄淮海麦区是我国小麦主产区之一,由于地理环境等不同,导致麦区内具有不同类型的生态亚区。不同生态亚区的生态条件对种子活力的影响研究欠缺,因此探究同一品种在不同生态环境下种子活力差异具有深刻意义。本研究以济麦22、周麦18和山农23号为供试材料,同时在山东省内选择5个试验点进行冬小麦田间种植,分别是鲁西北区
目的:胰岛素样生长因子结合蛋白-7(Iinsulin like-growth factor binding protein-7,IGFBP-7)是一种抑制生长的分泌性因子,属于胰岛素样生长因子结合蛋白家族,是胰岛素样生长因子轴的一部分,在细胞增殖、分化、凋亡中起重要作用。多项研究表明,IGFBP-7在多种恶性肿瘤中下调甚至缺失,起抑癌基因作用,且IGFBP-7的低水平与预后不良有关。但也有研究的结
温室效应是由于温室气体排放而产生的,后者的主要组成部分为二氧化碳。如何在维持经济发展与降低二氧化碳排放之间进行平衡,已经成为国际社会关注的一个重要课题。世界上已有多个国家发布针对性的减排措施并提高监管要求,其根本原因在于各国都面临着巨大的节能减排压力。对作为发展中国家,中国目前的减排任务相对较轻。但应该清醒地认识到,我国虽然人均碳排放量较低,但排放总量处于世界领先水平。因此,为实现京都议定书制定的
T型管是工业生产中最基础的流体输配构件之一,作为管道间的连接常用于管道内工作介质分流和汇合,在核电和化工等诸多领域发挥着重要的作用。当两种温度不同的流体流在管道结构表面附近混合时,会使管壁上出现周期性波动或分层的热应力从而发生管道材料热失效现象。对T型管冷热流体搅混过程的温度波动机理,以及不同影响因素工况下的冷热搅混温度波动特性等方面的研究一直是学者们研究的热点。本文首先综述了 T型管内冷热流体搅
复合食品添加剂是指将两种或两种以上的食品添加剂及食品配料单体混合而成的起到功能互补和协同作用的复配物,复合食品添加剂在食品中担当某一项或多项功能,改善食品色、香、味、形和增强营养价值等。调理过程中添加复配食品添加剂可以显著提高牛排制品组织结构和整体食品品质,并具有延长货架期和提高消费者接受程度的潜力,为实际加工生产提供参考。本论文中以牛霖为原料,添加酸度调节剂、水分保持剂和亲水性胶体及氯化钾和海藻
制造业企业融资难、融资贵阻碍了我国经济发展的持久性,破坏了我国经济增长的平稳性。因此,在经济增长陷入困境的关键阶段,我国货币政策调控方式、频率发生着急剧变化。货币政策调控方式上从过去的货币增量调控转换到了价格与数量兼具的“混合型”货币政策调控,从2013年我国经济步入“新常态”以来货币政策调控频率不断加快。在频繁的货币政策调控以及政策工具的转型下我国制造业企业资本结构动态调整行为也随着融资环境响应