非平衡数据相关论文
[目的]研究创业板上市公司财务造假检测识别问题,构建异常检测模型对公司财务欺诈进行检测和识别。 [方法]构建了基于数据融合的财......
地中海贫血病(简称地贫)是一种严重的遗传性血红蛋白病,常见于我国南方地区。中、重型地中海贫血患者,因目前尚无根治方法,常见的治......
经过数十年的开发,中国东部老油田基本已全面进入高含水、高采出阶段,但实践表明由于夹层控制了储层内的流体流动,影响了垂向渗透......
随着大数据时代的发展,各行各业都呈现出了数字化、信息化的趋势。由于医疗与民生的高度相关性,所以医疗大数据的发展也越发引人关......
Z.Pawlak于1982年提出来的粗糙集理论是一种描述不完整性和不确定性知识的数学理论工具,该理论已被应用于智能计算技术领域研究中,......
脑卒中是一种严重影响人们身心健康的急性脑血管疾病,只有通过早期筛查和积极干预,做到早发现早治疗,才能将其危害降至最低。流行......
学位
针对传统支持向量机(support vector machine,SVM)处理非平衡的数据分类泛化性能差的问题,提出了一种基于主动学习的非平衡SVM分类......
风电机组叶片结冰检测,对风电机组的安全性、可靠性与经济性,具有非常重要的现实意义。本文针对风电机组运行观测数据的非平衡和单点......
在机器学习领域中,解决分类问题的算法针对的大多都是基于均匀分布的平衡数据的分类问题,而对于非平衡数据分类问题,达不到理想的......
针对非平衡数据的再平衡问题,提出了一种基于时间序列模型的过采样算法.首先,提出了一种确定性数据转化为随机数据方法,把少数类数......
针对癌症数据集中存在非平衡数据及噪声样本的问题,提出一种基于RENN和SMOTE算法的癌症患者生存预测算法RENN-SMOTE-SVM.基于最近......
为了解决非平衡数据分类问题,提出了一种基于最优间隔的AdaBoostv算法.该算法采用改进的SVM作为基分类器,在SVM的优化模型中引入间......
传统分类算法在处理非平衡数据时不能有效提高用户的分类效果.本文基于中国移动通信集团公司某分公司的用户数据,从数据平衡性视角......
摘 要:运用秩次分析法,对4个年度四川省特殊类型小麦区试参试品种表现的秩次值H2、环境区分指数YM、秩次圴方值S2等统计分析,从而对......
企业财务困境预测是金融界的一个长期研究热点,由于其复杂性,人们从不同角度进行了建模研究,主要包括以下两类方法:1)以企业财务比率为......
无论在现实生活还是网络世界都存在着大量的数据,但是数据不代表信息和知识,因此获取有用数据的数据挖掘技术应运而生。分类是数据挖......
支持向量机(Support Vector Machine,SVM)是一种建立在结构风险最小化原理基础之上的机器学习算法,能够很好的解决小样本、非线性、......
支持向量机(SVM)是由Vapnik在统计学习理论的基础上提出的一个新的通用的机器学习方法。由于在学习问题中出色的泛化性能,支持向量......
IB方法是基于率失真理论的无监督数据模式分析方法,它自1999年提出至今已在众多领域取得成功的应用。IB方法具有严密的理论基础,它......
非平衡数据分类问题广泛存在于现实世界中,如医疗诊断、雷达图像监测、诈骗检测等。由于其固有的不均匀特性,即正负样本数目相差悬......
随着移动智能时代的到来,以移动电话为主的移动智能终端已经超越传统PC(Personal Computer),成为最受欢迎的移动计算智能设备。但......
基因表达式编程(GEP)算法是一种融合了遗传算法和遗传编程的新型演化计算方法,目前己被广泛应用于函数发现、数据挖掘等领域。多表......
随着计算机网络的爆炸式发展,如何保障网络安全成为人们亟需解决的问题。入侵检测系统在网络安全方面发挥的积极作用使它成为人们关......
网站在日常办公中的日益普及,一方面给我们的生活带来了便捷,另一方面也需要我们预防形形色色的网站入侵行为。而IIS网站日志记录......
随着我国经济的不断发展,越来越多的人开始接受信用贷款的超前消费模式,个人信用贷款业务在银行贷款业务中的比重不断上升,P2P(Pee......
提出基于改进MOEA/D的特征选择算法识别复杂制造过程中显著影响产品质量的关键因素(特征)。首先,构建最大化G-mean指标和最小化特......
动态非平衡数据分类是在线学习和类不平衡学习领域重要的研究问题,用于处理类分布非常倾斜的数据流。这类问题在实际场景中普遍存......
随着我国医疗改革的不断发展与深入,参与医疗保险的人群范围越来越广,与此同时,医保欺诈及违规行为频频发生,致使国家每年损失大量......
数据分类是知识发现与数据挖掘领域的一项重要任务。然而,大多分类算法均以数据分布平衡为前提,这并不适用于非平衡数据分类问题。......
随着信息时代的飞速发展,各种数据呈现出爆炸式的增长态势。同时,数据形式也变得复杂且多样,给以机器学习为核心技术的数据挖掘带......
在机器学习领域中,分类是一项非常重要的任务。然而在现实生活的分类任务中,不同类别的数据可能存在重叠部分,分类时会出现不可分......
非平衡数据分类是机器学习和模式识别方面的一个重要研究方向,在欺诈检测、医疗诊断等领域具有广泛的应用价值。非平衡数据分类问......
现实生活中存在很多非平衡数据,其中的少数类往往更具有价值,但是传统的分类器通常都是以最大化总体分类精度为目标,从而不能有效......
随着信息技术与工业制造的深度融合,设备运行过程中不断产生的海量状态数据被保留下来,使利用大数据分析的方法对设备故障进行有效......
非平衡数据的分类问题是机器学习和数据挖掘中的重要研究方向。在实际生活中非平衡数据广泛存在,许多重要信息存在于少数类样本数......
在大数据时代,数据挖掘与分析在各种决策领域中扮演着越来越重要的角色。而在各种数据挖掘技术中,分类是商业和工程问题中应用最广......
P2P网络借贷是以互联网为运营媒介的新兴借贷模式,为社会中的资金需求群体提供了一种新的筹资路径,弥补了传统金融机构的不足,缓解......
在模式分类问题中普遍存在着数据集不平衡的现象,即不同类的样本在数量和分布上存在较大差异。非平衡数据的分类具有着重要的现实意......
区域化探数据直接推断地表层次结构分布,有效反映地质空间分布,一般利用区域探数据对地质进行数据挖掘,技术核心是如有有效借助数......
目前,国内水稻品种区域试验分析只限于对产量及其性状进行方差分析和显著性测验,而对非产量性状的评价多限于根据品种的平均表现来排......
运用混合线性模型的分析原理 ,对 1 996年和 1 997年的四川省油菜区域试验的产量结果 (非平衡数据 )进行统计分析。结果表明 ,影响......
证券投资基金随着证券市场的不断发展而日益壮大。在2007年股市的黄金时期,基金净资产实现了一万亿到三万亿的突破,多只基金净值翻......
不管是在真实世界获得的数据集,还是仿真平台获得的数据集都存在着大量的非平衡特性。非平衡意味着数据集中不同类别数据的数据规模......
针对传统分类算法在处理非平衡数据集所出现的少数类分类准确率较低的问题,通过引入加权系数和样本分布函数给出了一种新的模糊规......
针对传统分类器对于非平衡数据的分类效果存在的问题,提出了一种基于高斯混合模型—期望最大化(GMM-EM)的对称翻转算法.该算法的核......
K-最近邻分类算法是一种以模拟器为领域分类的简单算法,在诸多领域有较好的应用效果.基于此,本文先对这一算法进行了分析,并通过实......