论文部分内容阅读
在信息化大爆炸的今天,如何高效地从现有复杂多变的信息中提取出人们所需要的信息是一个急需解决的难题。为了解决这个难题,机器学习、人工智能和模式识别等领域的学者们展开了深入的研究,分类方法是其中重要的研究方向之一。经过多年的不懈努力,已有许多分类性能较好的方法应用于分类问题。然而这些分类方法主要是以整体的分类误判率、准确率和召回率等作为分类目标,这些分类性能的评价指标在不平衡数据集的分类问题中容易降低少数类和分布稀疏类样本的识别率。由于现实生活的需要,人们越来越重视少数类的分类精度,故在保证不平衡数据集整体分类质量的前提下提高少数类样本的识别率是一个值得研究的热点。本文主要研究了面向不平衡数据集分类的K-近邻法,具体的工作如下: (1)针对传统K-近邻法在寻找近邻样本时由于较大的相似度计算量而导致分类速度慢的不足,引入了代表样本和阈值。各测试样本的近邻样本只在其与各类代表样本相似程度不小于相应阈值的类中选取,从而减少了计算量,在不影响分类精度的同时提高了分类速度。 (2)对于传统K-近邻法对不平衡数据集分类精度低的问题,提出了类代表度与样本代表度。通过赋予类代表程度大的近邻样本和少数类样本较大权重来减弱多数类及分布密集类对分类的影响,从而提高了传统K-近邻法对不平衡数据集的分类精度。 本文以UCI分类数据集作为实验数据。通过比较传统K-近邻法与改进K-近邻法的各性能评价指标,结果显示改进的K-近邻法在一定程度上提高了分类性能。