基于数据密度分布的欠采样方法研究

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:Ivy1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统欠采样方法对不平衡数据集重采样时容易丢失多数类样本信息的问题,提出一种基于数据密度分布的欠采样方法US-DD。该方法引入数据密度的概念,并以此概念为依据将数据划分为高密度数据簇和低密度数据簇,高密度数据簇数据高度集中,低密度数据簇数据稀疏松散,两种不同数据簇对分类的意义也不同,因此可以针对不同密度的数据簇执行不同的重采样策略,以达到改善数据平衡度的目的。实验通过选取六组UCI数据集,采用C4.5决策树、支持向量机作为分类器,将US-DD与随机欠采样、KNN-NearMiss等方法进行比较,实验结果
其他文献
虽然迄今为止冠心病诊断的金标准仍为冠状动脉造影(coronary angiography,CAG),但CAG仅能显示管腔的狭窄程度及范围,而且是有创检查,还可能出现一些严重的并发症。多层螺旋CT冠
<正> 一、新形势下,重新认识软科学的重要地位和作用一般说来,我们软科学工作者对软科学的地位和作用,不仅各有认识和理解,而且常常利用各种机会向外进行宣传和灌输。在当前
<正> 世界上电炉炼钢所占比例不断增加,电炉冶炼每吨钢回收的烟尘量为13~17kg,一般筑路用或废弃。从环境保护和资源回收来看,烟尘含锌、铅等有价金属,应回收。处理电炉烟尘有
“十三五”阶段在我国小康社会建设过程中影响作用十分关键。从目前发展状况来看,我国已经进入经济新常态发展阶段,不仅形态更高级、分工更复杂,而且结构也带有明显的科学化
目前,国民经济发展出现了新的情况,新的经济结构在创建和发展,沿海劳动密集型产业迅速向内地转移.在此形势下,消防形势异常严峻,传统的消防工作面临新的挑战.文章针对新形势
研究了一水型三水铝石的矿物组成、用拜尔法处理三水铝石、一水软铝石的溶出性能、赤泥浆液的沉降和压缩性能。提出了生产工艺。介绍了国外处理此类铝土矿的生产技术动态。
曲线斜拉桥是建造在曲线上的斜拉桥,主要是为了适应线路需要,由于其良好的景观性和线路适应性,在城市和山区交通建设中扮演重要角色。曲线斜拉桥除了有曲线梁桥和斜拉桥的特
从锡冶炼的实践,初步理清了铋在工艺过程中的走向,介绍了从锡,铅电解阳极泥盐酸浸出液中回收铋的新方法。
<正> 80年代以来,预测作为一门专门科学和专项工作,在我国逐步兴起。1983年开始的&#39;2000年的中国&#39;研究,把预测工作向前推进了一大步,目前,预测工作已在多层次、多领域
深化行政管理体制改革是我国新形势下所有体制改革的中心环节,社会主义市场经济的蓬勃发展要求我们不断深化行政管理体制改革。笔者认为,只有确实加快行政管理体制的改革,积