基于对比模式的不平衡数据分类研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:klammj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着海量数据的出现,数据挖掘成为目前最有应用价值的领域之一,数据挖掘技术从这些大量的无结构的数据中提取有效的隐含价值的信息,从而提高决策效率。不平衡数据分类是数据挖掘领域中一种特殊并且重要的情况,不平衡问题即在同一数据集中某些类的样本远远大于其他类的样本,数据呈偏态分布。数据不平衡现象普遍存在于社会应用中,如网上银行欺诈检测,人脸识别,臭氧水平预测,肝脏和胰腺疾病的预测等。在类分布不平衡问题中,少数类数据在数据挖掘中具有特殊的意义,稀有的数据往往存在更大的价值,如果分类错误会带来很大的损失。因此,研究如何提高少数类的分类能力和不平衡分类性能具有重要的理论意义和应用前景。对比模式具有良好的区分能力,基于对比模式的分类方法可以从样本内部特征分析,具有更好的可解释性和准确性,然而,当数据分布不平衡时,基于对比模式的分类效果并不好。因此,本文首先从二类不平衡数据出发,提出一种新的基于对比模式的不平衡分类方法,并将其扩展到多类不平衡问题中,提出一种新的分解策略并将其应用于基于对比模式的不平衡分类方法。本文的主要工作如下:(1)在基于对比模式分类算法中,现有方法挖掘出的大量的对比模式,且存在对分类作用并不大的模式,造成了较大的时间和空间的消耗,此外,传统分类方法按照支持度之和来计分分类,在不平衡环境下,多数类挖掘出的对比模式数量多且支持度高,少数类挖掘的对比模式数量少且支持度低,导致多数类的对比模式支持度之和远远大于少数类的对比模式支持度之和,分类结果会偏向多数类。针对此问题,本文提出一种新的基于对比模式的分类算法,该方法先对模式进行质量检测,对对比模式集进行有效过滤,提高对比模式的质量,同时,根据模式质量构建加权分类器,降低分类器对多数类的偏向。实验结果表明,高质量的对比模式构建的分类器性能更好,并且,文章算法可以有效降低分类器对多数类的偏向,提高少数类的识别能力。(2)在多类不平衡环境下,类别之间的数据特征和分布特征更为复杂。由于传统的分解方法加重了分类子集合中的不平衡程度,并产生出大量的子集合,糟糕的子分类器质量严重影响了分类器整体性能。为此,本文提出一种基于层次聚类的多类不平衡分类方法,该方法基于层次聚类的思想对多类不平衡数据进行分解,根据类别相似度分解子集合,以此降低类别间的不平衡性,同时,有效控制了子集合数量。在分类器构建阶段,采用基于对比模式的不平衡分类方法训练分类器,充分利用数据的内部特征,降低分类器对多数类的偏向,提高分类器质量。实验结果表明,基于相似度分解多类不平衡数据集,可有效降低子集合间的不平衡程度,同时,该分解策略应用于基于对比模式的不平衡分类方法,可有效提高分类性能,特别是在少数类的分类中。
其他文献
随着DNA微阵列技术、高通量测序技术的不断延伸和迅猛发展,产生了许多的基因表达谱数据、分子相互作用数据、基因组数据。这些数据在研究基因突变、基因识别、基因分型和癌症
当下,计算机技术飞速发展,计算机并发体系结构已成为主流。为使并发体系结构的性能得到充分发挥,多线程编程思想应运而生。但是由于多线程程序运行的不确定性,导致编程人员在
随着汉语学习在世界范围内的推广,汉语教学的学科体系日渐成熟,教学理论日渐丰富,相关研究不断深入细化,课堂活动在汉语教学中的重要性也越来越多地被提及。针对课堂活动的调
作为物联网产业的核心技术,无线传感网络已被应用于生产生活的许多领域。无线传感网络往往被部署于复杂多变或干扰因素诸多的环境中,常会造成感知数据偏离实际,从而导致感知
随着计算机技术突飞猛进式的发展,不管是从硬件还是从软件上,都越来越能满足人们的需求。在计算机技术领域发展中,三维重建越来越成为机器视觉的研究重点,并在地图制图,建筑
近年来,随着多媒体技术飞速发展,越来越多的蒙古文古籍文献被扫描转化为数字图像,以便长久保存。这样做不仅有利于古籍文献的保存,同时也给相关研究人员提供了十分珍贵的研究
多标签分类问题一直是机器学习中的热点问题。在过去的研究中,人们解决该问题的关键在于如何建模标签之间的依赖关系,从而提升模型的性能。然而在本文中,笔者受到多视角学习
随着信息科学技术的发展,越来越多的数字化设备被应用于工作和生活中来记录和传播信息,进而使得照片和视频资源呈现几何级数的增长。如何快速从海量的视觉媒体信息中筛选出有
PLM(Product Lifecycle Management)系统,即产品生命周期管理系统。该系统能够管理从产品设计、产品生产、销售到停产整个生命周期的所有数据信息。它的最大特点就是能够实现
近年来随着人们对智能计算、物联网与人机交互等技术研究的日益深入,情景感知技术得到了快速发展。情景感知计算的目标在于实现“无时不在而又无处不在”地主动为用户提供恰