基于Spark的类别不平衡问题研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:huishou2088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,大量数据得以存储积累,人们进入信息爆炸时代。在大数据世界里,知识就是力量,从这种新的知识中提取规则对传统的机器学习算法来说具有很大的挑战,一方面由于数据的纷繁复杂加剧数据分析难度,比如类别不平衡问题等,另一方面是因为它们无法适应分布式平台的可扩展性要求。针对上述问题,本文做了一些工作:(1)提出了基于Spark的代价敏感C45决策树集成类别不平衡算法(Cost Sensitive C45 Decision Tree Ensemble Class Imbalance Algorithm based on Spark,CSCES)。该算法利用Spark的广播机制将所有聚合的正类样本广播到每一个分区内降低该分区的类别不平衡比率。接着所有分区并行训练C45决策树。每次迭代时,通过对分类错误和分类正确的样本赋予不同的代价,来获得下一次分类精度的提升。最后所有分区内的子分类器集成最终的分类器。实验结果证明了该算法具有一定的优越性、高效性和扩展性。(2)考虑到某些数据集中正类样本过少或者类别不平衡比率过大,本文在Spark平台上又实现了SMOTE和Tomek Link算法。SMOTE算法可以适当扩充少数类样本数量丰富决策区域。Tomek Link算法可以用来删除特征空间距离最近的且类别不同的两个样本,降低类重叠造成的过拟合风险。实验结果表明经过SMOTE和Tomek Link算法采样数据之后可以提高CSCES算法的性能。(3)在Spark平台上完成对信用卡欺诈数据的预处理及训练CSCES模型,最后取得了较好的结果。
其他文献
作为第三代半导体材料,GaN具有临界击穿电场高、禁带宽度大、电子饱和漂移速度快等优良特性。同时由于极化效应,GaN可以与AlGaN等材料形成具有高面密度和高迁移率的二维电子
本文分析了城市快速路瓶颈处交通流的运行特征,探究了换道行为对瓶颈处交通流失效的影响,并据此建立了考虑换道行为的瓶颈处交通流失效概率预测模型。基于移动瓶颈模型分析了换道车辆对目标车道车辆运行的影响。认为当换道车辆速度小于目标车道车辆的运行速度时,换道车辆换至目标车道后将成为慢行车,形成移动瓶颈,影响目标车道其他车辆的通行。通过全速度差模型对简化后的换道行为进行了仿真分析。研究发现,存在换道慢行车时,
在打击拦截任务的末制导阶段,飞行器速度快,弹-目相对距离近,制导回路与控制回路之间耦合变强,分开设计两回路会造成控制的滞后以及精度降低。本文主要针对末制导阶段的打击拦截任务,采用终端滑模结合误差观测器以及终端滑模结合双层自适应的制导控制一体化进行了研究,主要包括以下内容:1、在考虑目标加速度不确定性,以及飞行器姿态运动建模中的不确定性的情况下,建立了飞行的弹-目相对运动模型,在假设滚转稳定的前提下
硕士研究生入学考试公共课采取统一命题形式,毫无疑义。而硕士研究生入学考试专业课到底采用统一命题还是自主命题却存在争议,这也是一块尚待开垦的处女地。本文试图以教育学
在当今的社会生活中,人人都缺少不了图像信息的获取,图像也是人与人之间,人与机器之间相互交流的媒介。所以,在获取图像信息并对图像进行分析与处理操作必不可少。图像分割是
In the industrial processes of manufacturing and assembling,metal welding is often carried out.Hence,the distortion in the output product is inevitable.These distortions are formed as a result of the
随着人口老龄化的加剧,养老问题成为当前我国亟待解决的社会问题之一。集养老、护理、医疗、娱乐于一体的养老机构,将成为众多老年人的养老选择。体育活动在增强体质、预防疾
Si3N4陶瓷具有高硬度、高熔点和良好的高温性能等优点,但氮化硅陶瓷本身的韧性低、脆性大限制了其进一步的发展和应用。本文采用颗粒、晶须增韧的方法改善氮化硅基陶瓷刀具材料的断裂韧性。根据氮化硅复合陶瓷刀具材料的设计原则,选择合适的颗粒、晶须来提高Si3N4陶瓷材料的综合性能。根据复合陶瓷刀具材料的增韧补强机理、烧结机理,采用液相热压烧结,制备了以TiC颗粒和TiC晶须为添加相,Si3N4为基体相,Y
有机发光二极管(OLED)因其巨大的应用潜力而备受关注,它可以应用于智能手机、固体照明、大面积显示屏和穿戴设备中,发展前景广阔。鉴于OLED的性能与所应用的材料息息相关,为了
目前,随着无线通信技术方面的研究越来越深入,多天线系统即多输入多输出(MIMO)系统越来越成为发展的关键点。MIMO系统与以前的单一天线系统的优势在于在占用频带带宽不变的情