基于聚类融合欠采样的不平衡分类方法

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:sunshinexpsister
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,机器学习作为人工智能的重要一部分,越来越被人们熟知。面对庞大的数据量,人工进行数据处理、数据分析已经极不现实,采用机器学习方法是当今不可逆转的发展趋势。不平衡分类是机器学习中的一个热门课题,其应用在现实生活中广泛存在,在诸如疾病诊断、信用卡欺诈消费、网络入侵检测等方面有着极大影响。在不平衡分类中,以往的传统分类器以提高总体的分类精度作为目标,无法真正反映出分类器的实际性能,且对少数类的分类精度较差。因此如何提高不平衡分类的分类精度一直是相关领域中的研究热点,学者们也提出了许多有效的策略。通过国内外文献的分析,本文认为可以通过改进欠采样方法来提高分类精度。不平衡分类中,欠采样方法是改善数据不平衡现象的经典方法之一,该方法通过一定策略来减少数据集中多数类的数量来平衡不同样本的数量,如随机抽样策略。但欠采样算法丢弃了大量有用的多数类数据,并放大了多数类样本的噪声比例,改变了原始数据分布,因而噪声样本在该算法的实际应用中影响了分类效果。针对已有欠采样方法容易保留多数类噪声样本的问题,文中提出了一种基于聚类融合欠采样的RUIF欠采样算法。该算法通过结合聚类融合与孤立森林(Isolation Forest,iForest)方法来筛选、删除噪声样本,有效提高了模型中的样本质量,进而有利于对少数类的分类。之后该算法结合XGboost算法,得到了RUIF-XG算法,用于处理不平衡分类问题。在UCI和KEEL数据库中选取七个数据集,实验结果表明,相比其它欠采样算法或直接分类方法,RUIF-XG算法在处理不平衡分类问题时,分类结果中的AUC值和F1值均有一定程度的提升,并使用Wilcoxon检验来分析实验结果,证明评估指标的提升具有显著性差异,使实验结论更具说服力。最后将算法应用在蛋白质的亚细胞定位预测。结果表明,本文算法能够改善预测效果,AUC值和F1值比直接分类分别提高了11.83%与6.97%,比次优欠采样算法分别提高了2.72%与2.54%。同时,本文仍然存在一些不足之处。一方面,异常检测算法Isolation Forest具有一定的使用条件,即对子样本集数量大小的要求、对噪声的定义;另一方面,本文算法中的一些参数,如聚类次数、噪声删除比例等难以得到最优值,只能以经验值代入。在今后的研究中,可以从这几个方面入手,进一步完善模型理论,提高结论的科学性与有效性。
其他文献
新疆作为中国不可分割的一部分,自古以来就作为亚洲通往欧洲的重要驿站,且是丝绸之路上重要的交流中心,形成了文化上的多元一体化特征,由于有着得天独厚的地域文化,吸引了国
近年来借贷市场份额逐年提升,借贷产品渗透到日常消费、经营的方方面面。与此同时,信贷风险也逐步攀升,借贷预测精度一直难以提升的主要原因是借贷数据有规模大、维度复杂和极度不平衡等特性。且随着时间推移,部分特征会有分布漂移的问题产生。为此,本文以Lending Club的历史贷款数据为例子,通过优化违约预测模型来解决数据不平衡、特征分布漂移现象,降低违约风险,帮助精准筛选优质借贷申请来维护良性的借贷环境
北淮阳成矿带东段早白垩世晓天火山盆地西端出露早白垩世凌家冲杂岩体,距离凌家冲岩体从近到远依次产出戴家河金矿、隆兴金矿、东溪金矿等一系列浅成低温热液型金矿床。区内
《蒙语文课程标准》规定:“蒙语文是蒙古人交往最重要的工具,也是人类文化的重要组成部分。蒙语文教学是建立蒙古族教育基础的一项重要工作。”学好本民族的语言,继往开来,发展本民族,是每个人神圣的责任。在蒙语学习中,蒙语文既是母语,也是学生学习其他科目的基础,是学生全面发展及年龄发展的基础。正因为蒙语文具有重要的职能和基础性作用,成为广大教师讨论研究的主题之一。本论文以通辽市扎鲁特旗第二蒙古族中学与巴雅尔
机器学习如今越来越广泛地出现在人们的视野中,分类问题是机器学习技术的一个重要应用。现实中的分类问题中很多属于不平衡问题。针对不平衡问题,人们一般从数据预处理、修正算法、预测后处理三方面进行解决,其中数据预处理中较为经典的有SMOTE过采样方法,以及针对该方法的不足而提出的RWO-Sampling算法。本文基于两个方面对RWO-Sampling方法进行改进,一是依赖相关系数矩阵划分相关变量对,二是使
本报告是一篇员工手册英汉翻译实践报告,原文本源于美国房地产公司Sunrise Company编写的《员工手册》,共五个部分,约5万字。本次翻译实践译者原文节选了第一部分和第二部分,内容包括企业简介,董事长致辞寄语,员工责任义务和公司政策等。根据纽马克的文本类型理论,文本的主要功能有三大类型:表达功能、信息功能和呼唤功能。本员工手册主要功能是传递信息,但同时,员工手册作为企业的行为指南,要感染员工做
近些年,在有机质生气理论和热模拟实验的基础上,对原油裂解气的特征与评价、裂解程度以及热解动力学等方面的研究取得了比较不错的进展。而目前对于裂解气碳同位素的分析以及
根据蒙语文教材进行母语教学的时候“作业”是最基本的实践过程。语文教学过程中“作业”占据着一定的地位,因此“作业”需要严格的提炼并进行科学的安排,从而达到学生学习母语的目的。此论文从如何有效地利用初中蒙语文作业,将其价值更提高化方向出发将课后作业“思考与练习”、“金马驹”系列练习册、教师自留的作业对照《中小学义务教育蒙语文课程标准》的《目标与内容》运用统计法进行了分析。在此基础上使用实例分析法、观察
可见光通信是一种新型的光通信技术,原理是利用发光二极管的发光强度变化实现信息传输,兼具照明和通信双重功能。可见光通信具有高速、低功耗、抗电磁干扰等优点,近几年来发展迅速,是当前无线通信领域的研究热点之一。由于当前室内照明系统中LED阵列的广泛使用,室内可见光MIMO系统也得到了广泛研究。MIMO技术应用于可见光通信系统中可以增加传输带宽,提高传输速率。但可见光MIMO技术存在码间干扰严重、信道相关
计划生育是我国的一项基本国策,在一定历史时期发挥了稳定低生育水平、控制人口过快增长的重要作用,对我国的经济社会发展影响深远。近年来,我国的人口形势发生一系列变化,出生人口性别比失调,人口老龄化问题日益凸显。为适应人口结构的改变,我国计划生育工作进入转型发展的新时期,短短几年内,两轮机构改革和两次生育政策的重大调整,基层计划生育工作迎来新的历史时期。计划生育工作的总基调发生变化,逐渐从控制数量向提高