论文部分内容阅读
分类是数据挖掘任务之一,KNN算法是一种思路简单,易于实现的分类算法。KNN根据未知样本的K个近邻样本来预测未知样本的类别,近邻样本的选择是根据一定的距离公式判定的。距离的定义直接影响K个近邻样本的选取,最终影响分类的准确率。许多学者都对距离进行研究,但基本都没有考虑到属性值对类别的重要性。信息熵可用来度量属性值对类别的重要性,信息熵越小,此属性值对类别的重要性越大。本文首先采用信息熵度量属性值的重要性,给出一种新的基于属性值信息熵的距离定义,同时投票时综合考虑各类近邻样本的平均距离及个数,提出了一种基于属性值信息熵的KNN改进算法Entropy-KNN。蘑菇数据集上实验表明Entropy-KNN算法的分类准确率高于传统KNN算法和距离加权KNN算法。
其次,为了进一步提高分类的准确率,提出一种基于层次聚类法的Entropy-KNN算法,采用层次聚类法对每类的训练样本进行聚类后,选取与测试样本最接近的聚类作为新的训练集,最后对测试集进行Entropy-KNN算法分类。
蘑菇数据集上实验表明此算法进一步提高Entropy-KNN算法的准确率。
最后,为了加快分类的速度,提出基于属性约简的Entropy-KNN算法,先对训练集进行属性约简,接着在测试集使用Entropy-KNN算法进行分类。