基于自然最近邻居的分类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：coosi_cui

【摘要】

：

在各学科领域及实际应用中,存在着大量的分类问题。随着信息技术的迅猛发展,人们面临着急速增长的数据量,然而人们迫切地希望从已有的海量数据中获取有价值的信息或是预测未

【作者】

：

张莹

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2015年期

【关键词】

：

分类 K近邻自然最近邻权重分配

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在各学科领域及实际应用中,存在着大量的分类问题。随着信息技术的迅猛发展,人们面临着急速增长的数据量,然而人们迫切地希望从已有的海量数据中获取有价值的信息或是预测未来的能力,因此分类算法也越来越受到人们的重视。作为数据挖掘的重要研究领域,分类技术已广泛应用于各个领域并起到了很重要的作用,具有很高的实用价值。在数据挖掘的分类领域中,国内外大量研究学者在K最近邻域概念的基础上提出了K最近邻分类算法及许多有效的K最近邻改进算法。但是在实际的涉及到K近邻分类算法的应用环境中,不同的参数K值对最终的分类结果及性能会有显著的影响。同时当实验数据集为不同特征时,具体K值的选择没有可信赖的理论基础以及可借鉴的信息,K值只能依赖大量的实验以及用户在实验过程中的经验来选择。所以对于K近邻算法中的敏感参数K值的选择是一个比较困难的研究点。针对上述问题,本文提出了基于自然最近邻居的分类算法,具体工作如下:①调研并分析了分类技术的研究背景、实际应用意义。并阐述了分类算法国内外的研究现状。②简要描述了分类算法的定义及过程。随后着重探讨了几种常用分类算法的算法思想、优缺点及其典型算法等。最后,阐述了常用的分类算法的评价指标。③引入了自然最近邻居技术的概念以及核心思想。该近邻技术的优势在于不需要设置任何参数,算法通过自适应计算形成每个样本的邻居。并对自然最近邻居的搜索算法进行了改进,通过实验验证了改进算法不再对噪声点敏感。最后介绍了自然最近邻居的密度特性和稳定性,并通过在随机以及真实数据集上的实验验证了这些特性。④提出了基于自然最近邻居的分类算法。通过分析并发现自然最近邻居用于高维数据分类时的不足,提出了一种基于自然最近邻搜索算法、自然邻居的相关定义以及加权方式的新的训练集权重分配方式,以提高分类精度。再利用自然最近邻算法以及带有权值的训练集对测试样本进行分类。⑤通过在UCI真实数据集上将本文的分类算法与传统的KNN算法以及加权KNN算法进行比较,实验验证了本文算法的有效性。并通过与未加权的基于自然最近邻居分类算法的比较,验证了本文提出的权重分配方式提升了分类算法的精度。

其他文献

基于本体的试卷自动生成系统研究

现有Web上的资源不能由机器做出准确的语义识别。为了探索解决的方法,本文以在计算机教学领域的应用研究为例,对基于本体的试卷自动生成系统的体系结构进行了设计,并对其中的

学位

试题本体机器学习最近邻算法

面向对象技术的多点统计储层建模系统的研究

油气储层随机建模是八十年代后期兴起的一项油藏描述高新技术.它是适应油气田开发的深入，应用先进的二次采油和三次采油技术，进一步提高油气采收率的需求应运而生的。而利用多

学位

油气勘查油藏评估储层建模计算机技术面向对象技术

基于自组织特征映射的检索结果聚类研究

目前主流的搜索引擎都基于关键词匹配,当查询词很短时往往有大量包含查询词却实际并不相关的网页被返回。而采用有序列表方式来呈示检索结果,使得不同主题的网页混杂一起,用

学位

搜索引擎检索结果聚类自组织特征映射潜在语义索引标签抽取

链接结构用于多关系数据挖掘的研究

多关系数据挖掘是数据挖掘的一个崭新的研究方向，是数据挖掘最新的研究热点之一。传统的数据挖掘算法是在数据库的一张单一的表上挖掘，当遇到多表时，不得不把多张表集成到一张表

学位

多关系数据挖掘关联规则链接结构表上挖掘元组ID传播聚类算法

CMOS射频压控振荡器和功率放大器设计

近年来，随着通信技术的不断提高、通信协议的不断完善、通信市场需求的不断扩大，射频集成电路的应用和研究得到飞速发展。CMOS射频集成电路以其成本低、功耗小、集成度高的特点

学位

射频集成电路压控振荡器E类功率放大器系统芯片MOS变容管负载牵引

嵌入式移动实时数据库系统的同步日志与恢复策略

随着社会生活各个方面的信息化程度越来越高,嵌入式移动设备得到很大的发展,同时对信息实时性的要求也越来越高。于是由传统数据库技术结合移动计算和实时应用的嵌入式移动实

学位

移动实时恢复有效恢复日志消息日志同步日志优化

基于全局时标的网格事务并发机制研究

网格事务不同于传统事务，它处在一个松散耦合的环境中。网格事务内部的协调因为分布环境和应用的多样性、通信的不可靠性和不确定性变得复杂。网格环境中的事务可能包括多个参

学位

网格事务事务模型全局时序并发控制协议可串行化定理数据库

基于网格的图像内容检索研究

随着多媒体、网络技术的飞速发展,图像信息的应用日益广泛,如何从大量的图像信息中快速而准确地检索出所需要的信息,已成为一个亟待解决的问题。随着大规模图像数据库的产生,

学位

图像检索网格技术网格服务

肿瘤相关的miRNA调控模块识别方法研究

学位

基于WebGIS的钻井风险评估可视化技术研究

钻井工程是一项多工艺环节、分地域工作的隐蔽地下工程，存在大量的复杂和不确定性因素，如何在钻前对其进行风险评估，并利用地理信息可视化技术直观地展示其评估结果，对提高钻井决

学位

石油企业钻井工程风险评估计算机技术WebGIS

基于自然最近邻居的分类算法研究

其他学术论文