基于集成学习的非均衡数据分类算法的研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:CHENGXB
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,由于非均衡数据广泛存在于实际的生产与生活中,并且具有特殊性,对非均衡数据分类问题的研究越来越重要,对于这种不同类型数据的数量分布差别较大的数据,传统算法无法得到很好的分类效果。本文通过研究分析非均衡数据的特点,提出不同的重采样技术,然后结合Adaboost算法,实现对非均衡数据的分类。本文提出的均衡混合采样方法,旨在提高以决策树为基分类器的Adaboost模型对非均衡数据集的分类效果,本文的工作与研究内容如下:  (1)本文提出均衡混合采样方法,对数据集采用随机森林属性选择算法,去除重要程度低的属性,提高不均衡数据的纯度以及决策树对不均衡数据集的分类能力;  (2)对于多数类采样,本文采用优于简单随机欠采样的基于密度的欠采样方法,对数据集中多数类样本进行欠采样,在采样过程中,通过一定的删除策略,在保留多数类样本重要信息的基础上对样本进行删除;  (3)对于少数类采样,本文首先分析现有SMOTE过采样算法的原理和步骤,发现其存在的不足和待改进的地方,然后提出改进的 KL-SMOTE(K-means-Limited-SMOTE)算法,该算法将K-Means算法和SMOTE算法进行结合,插入前对少数类进行聚类操作,从而形成多个少数类样本簇,再选取簇心位置进行插入操作;另外还要对少数类样本的分布进行判断,将其分为安全点、边界点和噪声点,人为对插入点的选择进行限制,只在安全点进行插入。该算法有效的改善了 SMOTE算法的不足,提高了插入样本的有效性,有利于提高少数类的识别效率。  最终,将过采样和欠采样的结果合并生成新的较为均衡的数据集,利用以决策树为基分类器的Adaboost集成学习模型对新数据集进行学习,构建处理不均衡数据集的模型。通过对UCI数据集进行对比试验,证明本文提出的分类算法,比现有方法在不同评测维度均具有较好的优势。  (4)本文将提出的分类算法应用在国内某网约车平台,用于识别作弊(刷券)订单。通过实验证明,本算法可以得到较高的识别效率,可在实际应用中为公司发现风险,避免损失。
其他文献
随着科技的飞速发展,人们产生和搜集数据的能力也不断提高。然而,与此相对应的是,处理数据的能力并没有相应的改善。面对越来越多的数据,人们显得无所适从,造成了“海量的数
网格是继万维网之后出现的一种新型的网络计算平台,目的是为用户提供一种全面共享包括网页在内的各种资源的基础设施。在当前和未来网格的研究中,网格安全的研究始终占据着至
Voronoi图是计算几何的一个重要分支,它在计算几何理论和应用中发挥着重要作用。本文所作的工作是:在Voronoi图已有的理论基础之上,给出一种Voronoi图生成算法,并能够计算每个Vor
近几年来,随着web2.0的发展,研究网络上用户之间的关系对于理解网络的作用有着很重要的意义。社区结构作为社会网络中一个很重要的性质,是指网络中存在一些节点,这些节点之间
社区结构存在于大规模网络中,具有较高的应用价值和研究价值,已成为近年来大规模复杂网络的研究热点。但是,如何快速、准确地发现网络中的社区结构,仍是一个亟待解决的问题。现有
三维图形系统中要处理大量环境物体和运动物体,碰撞检测(Collision DetectionCD)用来检测运动物体之间或运动物体与环境物体之间是否有碰撞,从而能决定运动物体的下一步动向,
智能客户端结合了C/S与B/S架构的优点,加上面向服务的体系结构提供的高层架构支持,正成为企业应用的主流模式。本文将智能客户端的研究深入到面向服务的领域,概括了智能客户端系
Robot是搜索引擎的关键技术之一,它已经发展为一门涉及人工智能、计算机网络、分布式处理、数据库、数据挖掘、自然语言处理等多领域的理论和技术。随着Web信息的爆炸式增长和
本论文的研究工作是基于粤港关键领域重点突破项目“NGN/IPQoS相关技术和设备软件开发”(项目编号:35240-4207044,4207045,4207046)。从项目实践中找到研究点,提出Gq接口的研究与
随着互联网技术的不断发展,网络安全问题也日益突出。防火墙、入侵检测等传统的网络安全技术尽管提供了一定程度的安全防范能力,但由于相互之间协调性等问题,传统的网络安全