论文部分内容阅读
当今时代是一个数据的时代,各行业领域每天都获取了庞大的数据,这些数据蕴含的规律引起了人们的高度重视,数据挖掘技术的研究需求在这一大背景下更为急迫。分类问题作为数据挖掘中的经典问题,一直是学术界讨论的热点之一。支持向量机是目前十分流行的分类算法之一,其泛化能力强,可以较好地解决小样本、非线性、过拟合、维数灾难和局部极小点等问题。支持向量机在平衡数据集上分类效果很好,然而在不平衡数据集上其分类结果具有偏向性,少数类的分类精度很低,且支持向量机容易受到数据集中的噪声样本的影响,导致分类结果出现偏差。针对支持向量机在不平衡且含噪声数据集上分类效果不理想的问题,本文分别从算法层和数据层两方面进行研究,提出两种数据分类模型,具体内容如下: (1)从算法层面入手,提出基于类重叠度的非平衡模糊多类支持向量机算法。算法采用训练样本点到其类内中心的距离和类重叠度加权的方法设计样本模糊隶属度函数,根据样本点的重要程度,分配相应的隶属度值,提高支持向量点的权重,降低噪点的权重。同时采用不平衡类调节因子,降低不平衡数据对分类结果的影响。在多分类问题中,与传统的模糊支持向量机相比,该算法可以有效地处理不平衡数据分类和噪声问题。 (2)从数据层面入手,提出基于LOF去噪和类重叠度欠采样的非平衡模糊多类支持向量机算法。首先对数据集进行预处理,采用LOF局部离群点因子和箱线图结合的方法删除训练数据集中的噪声样本。然后设置合适的采样数目,根据类重叠度抽取对分类起关键作用的支持向量。预处理过后的数据集最大限度地维持了原有的数据分布信息,并且降低了原数据集的不平衡比例。算法最后将代表每个样本点的重要程度的类重叠度作为隶属度值,构造模糊多类支持向量机。实验结果表明,该算法在能够在很好地保证分类精度的同时,大大地缩减运行时间。