基于属性信息熵的KNN算法改进研究

来源 :漳州师范学院 | 被引量 : 0次 | 上传用户:twffhvknnh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘任务之一,KNN算法是一种思路简单,易于实现的分类算法。KNN根据未知样本的K个近邻样本来预测未知样本的类别,近邻样本的选择是根据一定的距离公式判定的。距离的定义直接影响K个近邻样本的选取,最终影响分类的准确率。许多学者都对距离进行研究,但基本都没有考虑到属性值对类别的重要性。信息熵可用来度量属性值对类别的重要性,信息熵越小,此属性值对类别的重要性越大。本文首先采用信息熵度量属性值的重要性,给出一种新的基于属性值信息熵的距离定义,同时投票时综合考虑各类近邻样本的平均距离及个数,提出了一种基于属性值信息熵的KNN改进算法Entropy-KNN。蘑菇数据集上实验表明Entropy-KNN算法的分类准确率高于传统KNN算法和距离加权KNN算法。   其次,为了进一步提高分类的准确率,提出一种基于层次聚类法的Entropy-KNN算法,采用层次聚类法对每类的训练样本进行聚类后,选取与测试样本最接近的聚类作为新的训练集,最后对测试集进行Entropy-KNN算法分类。   蘑菇数据集上实验表明此算法进一步提高Entropy-KNN算法的准确率。   最后,为了加快分类的速度,提出基于属性约简的Entropy-KNN算法,先对训练集进行属性约简,接着在测试集使用Entropy-KNN算法进行分类。
其他文献
地震数据三维地质建模是根据物探工作的需求出发,在三维地震数据处理的基础上,利用现代计算机丰富的图形图像功能,对地震数据进行三维可视化图形显示。本文结合OpenGL图形库
随着Internet这一新型计算环境的普及,计算机软件所面临的运行环境开始从静态封闭走向动态开放。而Internet所具有的无统一控制的“真”分布性、节点高度自治性、节点链接的
伴随着Internet的快速发展,网络上各种P2P应用层出不穷。近年来,P2P作为一种新的网络应用模式被广泛应用于文件共享、流媒体、即时通讯等领域。P2P应用的不断增加,引起网络带
实时准确的交通流量预测是智能交通控制和诱导的关键,有助于提高交通设施的利用效率和人们的出行质量。对于短时交通流量预测,迄今已提出了许多模型。这些模型大多只针对某一路
车牌识别是模式识别领域的经典研究课题,具有重要的理论研究价值和实际应用价值。车牌识别技术的研究能够推动数字图像处理、机器视觉、机器学习、模式识别等技术在智能交通
学位
随着互联网规模和应用的快速增长,网络拥塞问题已经引起广大用户以及研究人员的密切关注。网络中不断增加的开环应用则加重了这种拥塞现象,特别是在Internet中占较大比例的多
Web服务技术是当前基于Internet构造跨企业分布式应用的标准框架,是基于SOA的企业业务集成解决方案的支撑技术。Web服务组合技术用于实现服务之间的有效集成,成为衔接以Web服
本文主要研究对象是实时数据库系统中的历史数据库,构建实时数据库系统VegeBam的基本层次结构和研究历史数据库中的多维空间索引技术,并在研究的基础上开发一个具有自主知识
在程序设计语言考试中,编程题的计算机自动出题技术及自动评分技术是非常有实用价值的应用,也是实现编程题在线考试功能的关键技术。根据试题难度及实际考试情况的不同,专家