针对类内不平衡样本分类方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:libingyao2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,不平衡数据分类问题存在于诸多领域中,由于不平衡分类蕴含的关键信息以及分类的困难受到越来越多研究学者的关注。传统的分类算法在应用到不平衡样本分类问题上时,往往不能取得理想的分类效果。到目前为止,许多针对不平衡问题的有效改进方法被研究者提出并应用到不同的领域,但是针对类内不平衡样本数据集的分类方法还需要我们去进一步深入研究。由于绝大部分现有的针对不平衡数据分类的方法都只是考虑到了类间不平衡的情况,并没有考虑到类内不平衡,从而当出现类内不平衡的时候影响最终的分类效果。有实验研究证明,影响不平衡样本分类学习的因素有很多,类间不平衡是其中一个主要原因但不是唯一因素,类内不平衡情况的存在往往是影响最终分类效果的关键因素。在本文中,首先介绍了不平衡问题中的类间不平衡和类内不平衡进行了介绍,并从多个角度分析了造成不平衡数据分类难的原因,通过阐述这些存在的问题进行分析研究;然后,对现有的一些经典的解决不平衡数据样本分类问题的方法和主流评价标准进行总结,并研究和分析这些方法的优缺点;然后,本课题提出了一种考虑类内不平衡的基于改进DBSCAN算法进行聚类,结合进化算法优化的集成分类方法进行类内不平衡数据样本分类的解决方案,并基于边界样本结合过采样和欠采样的各自优点进行混合采样;最后采用进化算法(EAs)中粒子群优化算法(PSO)对混合采样率、特征向量以及基分类器的权重系数进行优化,提出了一种基于PSO和改进DBSCAN算法的DBPS-Boost算法。随后进行了一系列可以有效验证算法查全率、查准率、F-Measure和AUC结果的实验,从而证明了该算法的有效性。
其他文献
软件产品线通过管理领域共性和可变性开发领域特定的可复用资产,以生产和维护功能类似的软件产品家族,是实现软件大规模定制生产的有效途径。如何在领域特征分析的基础上,实现产
随着人类基因组计划的完成,对基因功能的揭示成为后基因组时代的研究热点。而基因调控网络的研究正是从全局的变化中探索基因功能,研究基因之间的相互调控表达关系。 研究基
随着Internet、虚拟现实和协同设计等技术的飞速发展,越来越多的三维数字产品在互联网上传播,其版权所有者正面临着越来越严重的非法占有、复制和篡改等侵权行为,三维模型数
随着医学数字化影像设备在临床工作中日益广泛的应用,临床上每天都会产生大量医学图像数据。如何有效地识别图像特征和根据图像特征检索医学图像是当前迫切需要解决的问题,为
近年来,随着网络和数字多媒体技术的飞速发展,传统媒体的内容逐渐数字化,比如电子商务等。然而,随之而来的是数字媒体常常会受到恶意拷贝、删除、修改等非法行为的侵袭,数字
随着计算机技术的飞速发展,有限元法无论在理论还是应用上都取得了巨大的成功,已经成为工业工程设计与分析的重要工具,越来越多的庞大而且复杂的工程设计是用有限元法来模拟的。
随着计算机、通信、多媒体以及网络技术的迅速发展,出现了越来越多的数字图像资源。如何在这海量的数字图像中快速有效检索出我们所需要的图像数据越来越被人们所关注,基于内
RoboCup是一个国际联合项目,宗旨是促进人工智能,机器人技术,以及相关领域的发展。RoboCup整合了大量的技术,为人工智能和智能机器人的研究提供了一个标准的问题。项目的最终
随着多媒体技术和互联网技术的迅速发展,数字图像的安全问题变得十分突出,也成为信息安全的一个重要研究方向,其主要包括数字图像的加密、隐藏、数字水印和图像分存等课题。目前
Internet的迅猛发展使得网络上聚集了越来越多的文本信息。关于文本信息处理的诸如检索、分类、聚类、抽取等技术有了很大的发展,但是从多个文本中自动提取人物的信息并没有引