高效的不平衡数据采样框架研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:qq969023319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡分类问题一直是机器学习、模式识别和数据挖掘领域的研究热点。目前分类器大多都是基于平衡数据集进行设计的,因此对不平衡数据集,其分类结果往往偏向多数类,降低了模型的泛化性能。面对现实生活中大量的不平衡数据集,如何从中学习到拟合能力较强的模型具有十分重要的现实意义与应用价值。目前,有许多采样和代价敏感学习等方法可以减少不平衡数据对分类性能的负面影响,其中采样中的过采样方法是最常用的一种数据预处理方法。然而,过采样算法几乎都默认平衡状态为采样的最终状态,从不平衡率与分类性能之间的关系来看,这样的设定并不合理,因此找到过采样算法的最优状态是改进的关键。为此,本文提出了两种过采样框架,并在真实数据集上进行实验验证了它们的有效性。本文的主要研究工作如下:1.提出了基于交叉验证的过采样框架。研究了过采样过程中平衡率与分类性能之间的关系,从数据分布的角度证明了平衡状态并不是过采样最适合的状态。为了在过采样过程中找到最合适的状态,对传统交叉验证进行了改进,在划分数据的过程中保持数据集的不平衡比例,使之更加适用于不平衡数据集,并且使用几何平均(Geometric mean,G-mean)作为验证指标找到过采样算法的最优状态。该框架具有通用性,可应用于各种过采样方法。2.提出了基于分布差异的过采样框架。过采样过程中可能会合成许多无效或冗余的样本,考虑到它们对原始数据分布造成的影响,研究了过采样过程中数据之间产生的分布差异。KL散度(Kullback-Leibler divergence,KLD)可以对两个概率分布之间的差异进行度量,根据其性质,对过采样过程中数据之间的分布差异进行了定义。分析分布差异与分类性能之间的关系,研究通过分布差异度量找到采样过程中的最优不平衡率。3.设计了一个高效的不平衡数据采样框架系统。该系统使用本文提出的框架,对输入系统的数据进行过采样,便于应用到实际生活中。
其他文献
数字经济作为一种新经济形态,其能否在重塑产业空间布局的过程中促进公平效率更加统一,目前尚缺乏理论支撑和经验证据。本文使用融入了中间投入品的新经济地理模型,并基于由数字技术变革所引致的城际产业关联水平、劳动节约型技术进步以及区际交易成本的参数变化,来识别数字经济重塑产业空间布局的微观机理。利用2011—2019年我国286个地级市的面板数据,采用工具变量法以及“宽带中国”的准自然实验等方法,本文实证
期刊
本文以服务区监控视频数据为基础,建设车辆、人员专题数据库,从服务区运营管理者角度对比分析车辆和人员各类属性特征,发现服务区内车流、人流变化规律。
期刊
目的:探讨PCSK9抑制剂对心肌缺血再灌注后无复流现象的影响及其通过线粒体自噬减少心肌缺血再灌注损伤后无复流的机制。方法:选取8-10周龄(250-300g)Wistar雄性大鼠,随机分为假手术组、心肌缺血再灌注组(I/R组)和心肌缺血再灌注+PCSK9抑制剂组(I/R+P组)。通过构建大鼠缺血再灌注模型,观察固定缺血时间0.5h(假手术组除外),再灌注8h后,硫黄素S染色检测心肌无复流面积、TT
学位
目标跟踪是众多视觉任务中的热门研究课题之一,广泛应用于智能交通、安防监控和国防军事等诸多领域。近年来,基于孪生网络的目标跟踪方法因其优越的性能与效率吸引了大量研究人员的关注。然而,真实跟踪场景下存在的众多挑战性因子容易导致跟踪漂移或者失败。为了提升算法抵御各类干扰因子的能力,本文在Siam RPN框架的基础上提出了基于注意力特征优化的改进算法。本文的主要研究成果如下:1.针对当前大多数孪生跟踪方法
学位
缺陷检测是一项重要而又具有挑战的任务,传统做法是通过人眼对缺陷部位进行检测识别,这种方式非常耗时,存在较大主观性,且极其考验检测人员的耐性。因此,自动化缺陷检测方法和技术的研究逐渐引起了更多学者的关注。但自动化缺陷检测算法存在模型参数量大、准确度不够高等问题。本文围绕上述问题开展的主要工作如下:1.针对缺陷在图像中占比低、对比度低、连续性差等特性,以及现有自动化缺陷检测模型的推理速度不够快等问题,
学位
煤炭是我国主要的能源之一,保障煤矿的安全生产是煤炭行业的主要目标之一。矿井下的传送带区域是煤矿生产的一个危险区域,时常有工人违规操作,极易导致安全事故的发生。由于煤矿环境的特殊性,目前煤矿下视频监控技术的发展并不成熟,不能对传送带区域容易发生的违章行为和事故进行管控。因此,本文针对煤矿井下传送带区域内人员和传送带的状态监测的现存问题进行研究,提出了一种基于此场景监控视频的协同分析方法,并利用该方法
学位
作为一种自然界中资源最丰富的天然高分子材料,植物纤维由于其价格低廉、可再生、可降解等优点以及对水泥产品良好的力学性能提升效果,被认为是建筑材料中传统纤维的有效替代产品之一。然而,植物纤维在水泥孔隙溶液碱性环境下的劣化行为在很大程度上制约了植物纤维在水泥基材料中的广泛应用。因此,研究植物纤维在水泥孔隙溶液中的劣化行为并开发有效的耐久性调控技术具有重要意义。鉴于此,本文采用模拟的简化水泥孔隙溶液与真实
学位
报纸
随着我国电商行业的发展,各大电商平台需要更加个性化、智能化的方法提升平台的收益以及用户的购物体验。对用户的消费偏好的研究可以准确预测电商平台广告点击率,从而有效实现精准营销和个性化推荐。本文从电商平台用户历史行为序列和商品特征属性两个方面出发,深入电商平台用户、商品特征隐藏的用户兴趣研究。本文贡献总结如下:1.基于用户行为序列特征层面,针对传统循环神经网络处理时序数据的优势但忽略输入序列时间间隔的
学位
社交媒体是互联网飞速发展的产物之一,民众通过社交媒体交流信息已变成日常生活中必不可少的一件事情。微博作为热门的社交媒体之一,其特点是使用方式简单便捷、实时性高以及传播迅速,并因这些特点成为了国内民众表达情感和分享日常的重要渠道。微博拥有十分庞大的用户群体,每天都能产生海量含有民众情感的微博文本,微博文本成为了国内舆论走向的代表之一,因此对微博文本进行情感分类研究,可以挖掘出微博文本中的情感信息应用
学位