基于自然最近邻居的分类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:coosi_cui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在各学科领域及实际应用中,存在着大量的分类问题。随着信息技术的迅猛发展,人们面临着急速增长的数据量,然而人们迫切地希望从已有的海量数据中获取有价值的信息或是预测未来的能力,因此分类算法也越来越受到人们的重视。作为数据挖掘的重要研究领域,分类技术已广泛应用于各个领域并起到了很重要的作用,具有很高的实用价值。在数据挖掘的分类领域中,国内外大量研究学者在K最近邻域概念的基础上提出了K最近邻分类算法及许多有效的K最近邻改进算法。但是在实际的涉及到K近邻分类算法的应用环境中,不同的参数K值对最终的分类结果及性能会有显著的影响。同时当实验数据集为不同特征时,具体K值的选择没有可信赖的理论基础以及可借鉴的信息,K值只能依赖大量的实验以及用户在实验过程中的经验来选择。所以对于K近邻算法中的敏感参数K值的选择是一个比较困难的研究点。针对上述问题,本文提出了基于自然最近邻居的分类算法,具体工作如下:①调研并分析了分类技术的研究背景、实际应用意义。并阐述了分类算法国内外的研究现状。②简要描述了分类算法的定义及过程。随后着重探讨了几种常用分类算法的算法思想、优缺点及其典型算法等。最后,阐述了常用的分类算法的评价指标。③引入了自然最近邻居技术的概念以及核心思想。该近邻技术的优势在于不需要设置任何参数,算法通过自适应计算形成每个样本的邻居。并对自然最近邻居的搜索算法进行了改进,通过实验验证了改进算法不再对噪声点敏感。最后介绍了自然最近邻居的密度特性和稳定性,并通过在随机以及真实数据集上的实验验证了这些特性。④提出了基于自然最近邻居的分类算法。通过分析并发现自然最近邻居用于高维数据分类时的不足,提出了一种基于自然最近邻搜索算法、自然邻居的相关定义以及加权方式的新的训练集权重分配方式,以提高分类精度。再利用自然最近邻算法以及带有权值的训练集对测试样本进行分类。⑤通过在UCI真实数据集上将本文的分类算法与传统的KNN算法以及加权KNN算法进行比较,实验验证了本文算法的有效性。并通过与未加权的基于自然最近邻居分类算法的比较,验证了本文提出的权重分配方式提升了分类算法的精度。
其他文献
现有Web上的资源不能由机器做出准确的语义识别。为了探索解决的方法,本文以在计算机教学领域的应用研究为例,对基于本体的试卷自动生成系统的体系结构进行了设计,并对其中的
油气储层随机建模是八十年代后期兴起的一项油藏描述高新技术.它是适应油气田开发的深入,应用先进的二次采油和三次采油技术,进一步提高油气采收率的需求应运而生的。而利用多
目前主流的搜索引擎都基于关键词匹配,当查询词很短时往往有大量包含查询词却实际并不相关的网页被返回。而采用有序列表方式来呈示检索结果,使得不同主题的网页混杂一起,用
多关系数据挖掘是数据挖掘的一个崭新的研究方向,是数据挖掘最新的研究热点之一。传统的数据挖掘算法是在数据库的一张单一的表上挖掘,当遇到多表时,不得不把多张表集成到一张表
近年来,随着通信技术的不断提高、通信协议的不断完善、通信市场需求的不断扩大,射频集成电路的应用和研究得到飞速发展。CMOS射频集成电路以其成本低、功耗小、集成度高的特点
随着社会生活各个方面的信息化程度越来越高,嵌入式移动设备得到很大的发展,同时对信息实时性的要求也越来越高。于是由传统数据库技术结合移动计算和实时应用的嵌入式移动实
网格事务不同于传统事务,它处在一个松散耦合的环境中。网格事务内部的协调因为分布环境和应用的多样性、通信的不可靠性和不确定性变得复杂。网格环境中的事务可能包括多个参
随着多媒体、网络技术的飞速发展,图像信息的应用日益广泛,如何从大量的图像信息中快速而准确地检索出所需要的信息,已成为一个亟待解决的问题。随着大规模图像数据库的产生,
学位
钻井工程是一项多工艺环节、分地域工作的隐蔽地下工程,存在大量的复杂和不确定性因素,如何在钻前对其进行风险评估,并利用地理信息可视化技术直观地展示其评估结果,对提高钻井决