关于k—最近邻分类器的探讨

来源 :信息教研周刊 | 被引量 : 0次 | 上传用户:lb_super
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】
  决策树和基于规则的分类器是积极学习方法例子,消极学习的一个例子rote分类器,它记住整个训练数据,仅当测试实例的属性和某个训练样例完全配对时才进行分类。该方法的一个明显缺点是有些测试记录不能被分类,因为没有任何训练样例与它们匹配。使该方法更为灵活的一个途径是找出和测试样例的属性相对接近的所有训练样例,这些训练样例称为最近邻,可以用来确定测试样例的类标号,下面来进一步研究这个备受关注,同时又灵活有意义的消极学习方法例子——k-最近邻分类器,它是分类器算法中最通俗易懂的一种。
  【关键字】
  k-最近邻分类器 算法 MATLAB
  一、算法思想与原理
  最近分类器把每一个样例看作d维空间上的一个数据点,其中d是属性个数。给定一个测试样例,我们使用任意一种邻近性度量,计算该测试样例与训练集中其它数据点的邻近度。给定样例z的k-最近邻是指和z最近的k个数据点。通过数据点的的1-最邻近、2-最邻近和3-最邻近,得知选择k的重要性:如果k太小,则最近邻分类器很容易受到由于训练数据中的噪声而产生的过分拟合的影响,如果k太大,最近邻分类器可能会误分类测试样例,因为最近邻表中可能包含远离其邻近的数据点。
  k-最近邻分类器算法的原理是通过计算测试样本到各训练样本的距离,取其中最小的K个,并根据这K个训练样本的标记进行投票得到测试样本的标记。
  二、算法设计与实现
  运行环境:Windows和MATLAB软件环境。
  关键算法:
  function ceshi_knn
  k=10;
  kk=zeros(k,1);
  sz_z=100;
  x11=rand(sz_z,1);
  x12=rand(sz_z,1);
  x1=[x11 x12];
  y1=ones(sz_z,1);
  sz_f=100;
  x21=rand(sz_f,1)+1;
  x22=rand(sz_f,1);
  x2=[x21 x22];
  y2=-1*ones(sz_f,1);
  x=[x1;x2];
  y=[y1;y2];
  sz_c=20;
  test1=rand(sz_c,1)+0.5;
  test2=rand(sz_c,1);
  test=[test1 test2];
  for sz=1: sz_c
  for m=1:(sz_z+ sz_f)
  dis(m)=(test(sz,1)-x(m,1))^2+(test(sz,2)-x(m,2))^2;
  end
  for h=1:k
  near(h)=10^5;
  end
  for m=1:(sz_z+sz_f)
  for h=1:k
  if dis(m)  near(h)=dis(m);
  kk(h)=y(m);
  for t=h:k
  near(t+1)=near(t);
  end
  break
  end
  end
  end
  sum=0;
  for a=1:k
  sum=kk(a)+sum;
  end
  y_test(sz)=sign(sum);
  end
  for m=1:(sz_z+sz_f)
  if y(m)>0
  plot(x(m,1),x(m,2),'r+');
  hold on
  else
  plot(x(m,1),x(m,2),'b.');
  hold on
  end
  end
  for m=1:sz_c
  if y_test(m)>0
  plot(test(m,1),test(m,2),'g+');
  title('K-最近邻分类器');
  hold on
  else
  plot(test(m,1),test(m,2),'y.');
  hold on
  end
  end
  三、实验结果分析
  对于这个实验,使用不同的k值,进行测试,得出如下的结果:k-最近邻分类器算法的思路清晰简单,易于理解和实现的数据分类技术,可以在很多环境下很好的运行,在k值选取合适时算法的性能会达到最优,存在的误差会很小。
  四、总结
  优点:k-最近邻分类器算法的思路清晰简单,易于理解和实现的数据分类技术,可以在很多环境下很好的运行。
  缺点:首先,当数据集不平衡即某个类在数据集中的对象容量很大,而其他对象容量很小时,有可能导致当输入一个新对象时,该对象的k个邻居中大容量类的对象占多数,因此可以采用不同的类添加权值的方法来改进,例如和该对象距离小的邻居权值大;其次对于海量数据计算量过大,每个训练样本都有一个距离必须度量,耗费大量时间。
  【参考文献】
  [1]pang-ning tan Michael Steinbach.数据挖掘导论.人民邮电出版社,2011.1.
  [2]张宇.K-近邻算法的改进与实现[J].电脑开发与应用,2008,19(2):22-24.
  [3]梁循.数据挖掘算法与应用[M].北京大学出版社,2006:31-33.
  [4]A.Asuncion and D.Newman.UCI Machine Learning Repository[M].2007.
其他文献
“怎样提高学生的学习兴趣?”虽然是个老命题了,但是学生从八零后到九零后再到即将到来的零零后。学生这个主体一直在变化。学生的基础,眼界,爱好等等也都发生着变化。所以课堂教学要随着学生的变化而进行不断的调整,才能够在教学中保持旺盛的生命力。这样就对我们教师提出了更高的要求。死板的课堂教学已经不再适用于这个社会的需要,我们每一位教师都要探索新的教学方式,提高学生的学习兴趣,进而提高我们的教学效率。那么,
期刊
摘要:学生不会提出问题,究其原因,与教师不会提问,或不善于提问有关。而提问是发挥学生主体作用的有效途径。新课程理念要求问题的设计不仅要从教材实际出发,更要从学生实际出发。对历史教师如何设计课堂提问,在此我从封闭性问题和开放性问题做了探究。  关键词:历史教学;课堂提问;探索  现代心理学研究认为,“疑问是思维的导火索”。 “学源于思,思源于疑。小疑则小进,大疑则大进。”爱因斯坦认为:“提出一个问题
期刊
一、为学生创造轻松愉悦的探索性学习环境  (一)教师要创造良好学习环境  因为良好的学习环境有利于激发学生的学习动力无论哪一种教学方法,教师都要首先从学生的角度思考问题,对学生的心理特征和思维的规律进行研究,从而掌握学生心理。创造良好的学习环境可以从以下方面入手:  (1)客观探究情境的创设,主要包含试验情境、直观情境、自然情境以及社会情境等方面。在这种情境下,学生的学习方式变得灵活多样,学生乐于
期刊
教师是培养一代新人的工程师和艺术家,是人类科学文化、思想观点等宝贵遗产的继承者和传播者;同时又是年轻一代的智力开发者和完美人格的塑造者。人才的培养能否保证质量,学校能否办好,很大程度上决定于教师,其关键在于教师的素养。为了把老教师的丰富经验学到手,保持和提高我校地理学科教学水平,我们坚持开展专题教学研究,先后研究过“如何上好绪论课”、“如何培养学生的空间想象能力”、“如何培养学生记忆地理知识的能力
期刊
随着国际交往的日益密切,英语做为国际公用语言,在交流中所起的作用日益重要和突出。作为初中英语教师,有责任和义务为我国培养外语人才。所以,培养学生的口语能力,成为我们当前重要的教学任务之一。那么,初中生的英语口语能力应如何提高呢?下面谈一下我在教学中的几点尝试。  一、全英授课,营造英语会话氛围  在课堂上,英语教师应坚持全英授课,尽量给学生一个全英的环境。虽然我校极大部分学生来自于农村,起初可能不
期刊
一、主动渗透美育,提高学生的整体素质,是审美教育的目标  我们知道,美育能同时影响人们的理智和感情,甚至能影响人的整个精神面貌。在语文教学中对学生进行审美教育,培养学生正确的审美观念和健康的审美情趣,提高学生感知美、欣赏美、创造美的能力,不仅能提高语文课堂教学的效果,更能全面落实素质教育重要的一环。前国家教委副主任柳斌指出“在学生中加强德育,要强调把美育渗透到各学科中去。”对学生进行审美教育,是全
期刊
关键词:数学;教学;创设情境;激发;兴趣  爱因思坦说:“兴趣是最妙的老师。”我们也有句俗话:兴趣是最好的老师,兴趣是学习的动力,问题是数学的心脏。兴趣是构成学生动机中最现实、最活跃的成份。正如爱因思坦说:只有热爱,才是最好的老师,它远远超过责任感。学生之所以对学习不感兴趣,主要是因为对知识缺乏需要欲望。要培养学生的学习兴趣,必须使学生对新知识产生热情,要在课堂教学上下功夫。而成功的课堂教学,就应
期刊
一、课题的提出  修改是写作过程的重要环节,是提高写作水平的有效途径。鲁迅先生在谈自己的写作经验时曾说:“写完后至少看两遍,竭力将可有可无的字、句、段删去,毫不可惜。”《语文课程标准解读》指出“要重视引导学生在自我修改和相互修改的过程中提高写作能力。”  而当前的作文修改存在许多弊端:(1)教师重写前指导,轻改前指导。(2)教师重自己修改,轻学生自改和互改。(3)教师重对学生的作文作结论性修改,轻
期刊
兴趣是最好的老师,也是人们在求知过程中表现出来的最轻松最专注的精神状态。学生的求知情趣多源自学科自身的魅力。初中各学科,刨除音、体、美等外,多数都是不会说话的、充满理性的知识构层,而对于初中生来说,贪玩、爱动是他们的天性。面对理性的说教,浅了不见效,深了,次数多了,容易引起他们的抵触情绪,因为初中年龄段恰好处于人生的第一个青春期,同时也是叛逆期。在这样一个自制力差的年龄时段,乐学、善思、先天学习素
期刊
中华传统诗词是中华文化的瑰宝,学生学习和继承这些文化遗产,对增强民族自尊心、自信心和民族凝聚力,对提高整个民族的素质水平,具有极为重要的意义。作为语文老师,该如何有效地进行古诗词教学,如何引导学生去学好古诗词?笔者想根据自己多年来的教学实践来谈谈个人的做法。  一、激发学习兴趣  课文选入的古诗词远的距今两千多年,近的也有一百多年,都打着时代的烙印,今人与古人之间横亘着一条天然的鸿沟。要透彻理解这
期刊