面向不平衡数据的集成学习算法研究

来源 :山东科技大学 | 被引量 : 6次 | 上传用户:huili1012
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人们的日常生产、生活中,由于数据本身或抽样过程中人为因素的影响,不平衡数据集是广泛存在的。在这些不平衡数据集中,数量比较稀少的少数类样本往往与一些异常且重要的情况关系比较密切。在很多现实应用中,传统方法对这些少数类样本进行有效分类、识别是比较困难的。集成学习作为目前数据挖掘领域中的一个重要研究分支,受到研究者的广泛关注。集成学习通过把多个子学习器集成起来对机器学习问题进行研究,显著提高学习系统的泛化能力,比传统单一的数据挖掘算法更有优势。本文的主要研究对象为不平衡数据的分类和聚类问题,把集成学习方法作为工具,分别从使用抽样技术对原始不平衡数据样本集的样本分布进行调整、从数据抽样技术与改进的算法相结合等方面出发,以提高不平衡数据集分类和聚类的性能为目标,围绕数据层面如何合理有效地调整样本分布、在算法层面对已有算法的参数进行优化改进,提出了一些改进的算法,本文的主要研究内容如下:(1)基于欠抽样技术的K-AdaBoost聚类集成算法结合AdaBoost算法和K-means技术,面向不平衡数据集提出了一种站于欠抽样的K-AdaBoost算法。算法首先使用基于K-means聚类的欠抽样技术,在不破坏多数类样本结构的基础上,减少多数类样本的数量,提高数据集的平衡度;其次,在新的训练样本集上再次应用K-means算法得到多个类簇,通过计算测试样本到各类簇中心的距离,基于相似度和各类簇对基学习器的权重进行加权组合,得到测试样本对各基学习器的权重;最后,按照权重把各基学习器组合成强学习器,最终对测试样本进行预测。(2)基于ADASYN的R-AdaBoost分类集成算法面向不平衡数据集提出了一种基于ADASYN的R-AdaBoost分类集成算法。首先,算法基于ADASYN技术生成m个合成样本,对原始数据集起到平衡作用;其次,使用基学习器对新的数据集进行分类并得到每个子分类器的分类结果。在对样本的权重值进行更新时,引入Focal Loss损失函数的思想,增加了难分类样本的权重;最后,使用AdaBoost算法对测试样本进行分类,得到最终的分类结果。(3)基于进化过抽样的EOS-Bagging集成学习算法面向不平衡数据集,基于改进的SMOTE抽样技术,提出了EOS-Bagging(Evolutionary Over-sampling)算法。首先,EOS-Bagging算法对原始数据集中的少数类样本进行随机过抽样;其次,基于SMOTE算法和遗传算法通过对新样本集中的少数类样本进行选择操作,交叉操作,变异操作,通过进化抽样获取一个新的数据集;最后,在算法层面上,结合Bagging集成学习框架,使用基学习器对包含合成样本的新数据集进行分类,实现对测试样本的分类结果预测。通过实验表明,论文提出的算法在处理不平衡数据集聚类和分类的性能上有所提高。
其他文献
在隧道掘进中周边孔装药采用空气间隔装药代替传统的导爆索加竹片施工技术,可在不改变总体施工工序的情况下,缩短施工操作时间,降低工程成本。根据大别山隧道的围岩情况,分三种情
2005年南京地铁1号线正式开通,目前已运营14年。南京地铁1号线运营前期的车辆检修制度是基本为传统维修,即按运行里程和时间进行预防性“计划维修”(如日检查、双周检查、3月检查、年检等)和列车发生故障的事后“故障维修”。随着车辆检修的深入,我们注重地铁维修策略的研究,适时导入“以可靠性为中心RCM(Reliability Centred Maintenance)的预防性维修”思想,基于RCM理论,
目的:探讨PBL为中心的多元教学法在预防医学教学中的应用效果。方法:选取2013级临床教改1班35名学生为对照组,采用LBL教学法,临床教改2班31名学生为实验组,采用PBL为中心的多
过去人们曾经把红外制导武器视作秘密武器,认为它具有不发射暴露自己存在的照射信号,很难使敌方探测到它的存在,因而引起各国军界人士的重视。本文通过五大部分的论述可看到:
倒卖假文物多被认为是民间合法买卖。那么,什么情况下倒卖假文物构成犯罪,对此类行为又该如何规制?近日,由人民检察杂志社与山东省淄博市检察院共同举办的研讨会聚焦了这一话题
报纸
目的了解大鼠肝脏干细胞(WB-F344)的基本特征,探讨各种理化因素对肝脏干细胞凋亡的影响.方法观察肝干细胞的形态特征并绘制细胞生长曲线;采用细胞DNA琼脂糖凝胶电泳图检测饥
目的:研究针刺“百会”透“曲鬓”对急性期脑出血大鼠脑组织中P75NTR表达的影响,探讨该针刺疗法治疗急性期脑出血的作用机制。方法:选取体质量(300±20)g,健康成年雄性Wistar大鼠72只,将大鼠随机分为假手术组、模型组和针刺组,每组根据6h、24h、3d、7d不同时间点再分为四个亚组,每个亚组6只大鼠。依据改良自体血注射法制备脑出血大鼠模型,针刺组大鼠给予针刺“百会”透“曲鬓”进行干预。参
《精细有机合成》课程是一门理论性、知识性、技能性与应用性相结合的化工类专业课程,传统的课堂教学模式已经不能满足课程的教学要求,本文阐述了精细有机合成课程的网络教学平
微博自诞生起就开启了全民狂欢的时代,其特点符合时代需求进而使得受众愈加广泛、成熟。然而近年来长微博的使用又对微博自身作出了大量改造,并引发一系列争论。在此对长微博
QC小组活动是企业员工围绕本企业的经营战略、方针目标和现场存在的问题,参与质量管理和质量改进的一个有效而普及的团队活动。如今,我国的QC小组紧跟企业的变化和发展不断开拓