论文部分内容阅读
在各学科领域及实际应用中,存在着大量的分类问题。随着信息技术的迅猛发展,人们面临着急速增长的数据量,然而人们迫切地希望从已有的海量数据中获取有价值的信息或是预测未来的能力,因此分类算法也越来越受到人们的重视。作为数据挖掘的重要研究领域,分类技术已广泛应用于各个领域并起到了很重要的作用,具有很高的实用价值。在数据挖掘的分类领域中,国内外大量研究学者在K最近邻域概念的基础上提出了K最近邻分类算法及许多有效的K最近邻改进算法。但是在实际的涉及到K近邻分类算法的应用环境中,不同的参数K值对最终的分类结果及性能会有显著的影响。同时当实验数据集为不同特征时,具体K值的选择没有可信赖的理论基础以及可借鉴的信息,K值只能依赖大量的实验以及用户在实验过程中的经验来选择。所以对于K近邻算法中的敏感参数K值的选择是一个比较困难的研究点。针对上述问题,本文提出了基于自然最近邻居的分类算法,具体工作如下:①调研并分析了分类技术的研究背景、实际应用意义。并阐述了分类算法国内外的研究现状。②简要描述了分类算法的定义及过程。随后着重探讨了几种常用分类算法的算法思想、优缺点及其典型算法等。最后,阐述了常用的分类算法的评价指标。③引入了自然最近邻居技术的概念以及核心思想。该近邻技术的优势在于不需要设置任何参数,算法通过自适应计算形成每个样本的邻居。并对自然最近邻居的搜索算法进行了改进,通过实验验证了改进算法不再对噪声点敏感。最后介绍了自然最近邻居的密度特性和稳定性,并通过在随机以及真实数据集上的实验验证了这些特性。④提出了基于自然最近邻居的分类算法。通过分析并发现自然最近邻居用于高维数据分类时的不足,提出了一种基于自然最近邻搜索算法、自然邻居的相关定义以及加权方式的新的训练集权重分配方式,以提高分类精度。再利用自然最近邻算法以及带有权值的训练集对测试样本进行分类。⑤通过在UCI真实数据集上将本文的分类算法与传统的KNN算法以及加权KNN算法进行比较,实验验证了本文算法的有效性。并通过与未加权的基于自然最近邻居分类算法的比较,验证了本文提出的权重分配方式提升了分类算法的精度。