基于MapReduce的KNN分类算法的研究与实现

被引量 : 26次 | 上传用户:lcgbeyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的快速发展、信息量增加,如何处理海量数据成为行业面临的一个严峻考验。一种处理海量数据的方法是对文档进行分类,将新的文本划分到预定义的类中,进而帮助人们检索、查询、过滤和利用信息。在众多的分类算法中,KNN是VSM(向量空间模型)下最好的分类算法,利用余弦定理计算文档的间的相似度,依据相似度的值对文本分类,但在KNN算法相似度求解过程中计算量特别大,因为一方面KNN算法是懒散的分类算法,所有计算工作都是在分类过程中完成的;另一个方面相似度计算过程中,每一个待分类的文本都要计算它到全体已知样本的距离(即相似度),才能确定它的K个最近邻点。随着样本集的增大,需提高KNN的相似度运算速率具有重要的意义。本课题所研究的基于MapReduce技术实现的KNN算法元要是针对上述两个方面造成的相似度计算量过大、进而导致分类效率较低的问题,充分利用当前云计算MapReduce分布式编程模式的海量数据处理优势,重新描述了传统KNN的分类过程。本论文主要介绍了KNN算法和MapReduce技术发展状况,以及所面临的各种问题,并阐述了将MapReduce技术与KNN算法相结合应用到文本分类中的意义。本论文详细描述了MapReduce实现KNN算法的过程,重点分析了样本文档预处理、新文档特征向量化和余弦定理相似度计算三个核心模块,并对其涉及到的map函数和reduce函数的设计过程进行了重点描述,最后通过实验对比分析了KNN、改进的FKNN算法和本文提出的MR-KNN的预处理速率、分类效率等,进而论证了MapReduce实现KNN的重要意义——简化了相似度求解过程、加快了分类效率,并且保持了KNN的高分类正确率优势。
其他文献
目前,我国政府会计正处于改革的关键时期,将迎来更加艰巨的任务,面临更大的挑战。在政府会计准则体系建设中,资产的核算范围、研发成本、行政单位的预算支出、政府相关部门合
随着社会的发展,人类面临着人口剧增,资源过渡消耗气候变暖。环境污染和被破坏等问题的威胁。在全球应对气候变化的背景下,为了实现社会经济可持续发展,维护人类安全,通过建
传统孝道是中国伦理史上的核心观念和重要范畴。处于诸道之首、百善之先和教化之始的根本地位,是传统中国社会政治、文化生活中贯通性、统领性的意识。中国特有的农业经济、
我们调查和评估了沈阳市北部地区6所武警和部队离休干部休养所的空巢家庭老年2型糖尿病患者的糖尿病相关知识掌握程度及自我管理水平,并按相同年龄、性别、文化程度、病程、合
随着西藏和平解放和民主改革的顺利推进,特别是改革开放与社会主义市场经济体制的确立,中国西藏地方自治政府围绕党中央建设有“中国特色,西藏特点”的发展思路,对西藏地方各级党
随着世界各国科学技术突飞猛进般地大踏步发展进步,中国和俄罗斯都是在1994年被国际上正式承认为有互联网的国家,从此网络媒体以其独有的优势迅速地占据了两国大多数人们的生活
在远程教学中,师生在时空分离的状态下产生了教学距离,距离是远程教学中需要解决的最大障碍。网上教学与面授教学的有机结合,弥补了距离产生的缺憾,混合教学应运而生。然而,
随着现代社会的快速发展,电子信息技术较以前有了很大的进步与提升。我国的电子产品也正在逐渐进入一个持续、健康、快速的发展时期。融现代信息技术和高科技手段于一体的电子
球孢白僵菌已被开发成多种制剂应用于农林害虫的防治,但其田间防治效果受环境因子的制约,这是制约真菌杀虫剂大规模应用推广的技术瓶颈和亟待解决的国际难题。开展白僵菌抗逆
中外合资企业股权转让协议效力在未经行政审批状态下,分为“合同无效说”、“未生效合同说”与“合同有效说”。依据最高人民法院《关于适用<中华人民共和国合同法>若干问题的