大数据下的快速KNN分类算法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:lml2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新性地在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度地减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,该算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。
其他文献
课堂提问主体由教师向学生转换是大学英语教学改革的重要内容之一。本文通过转变学习观念、建立评估机制、组建学习小组、优化课堂教学结构等环节实现了这一转换。学生学习行
螺旋CT血管造影 (SCTA)是螺旋CT在应用方面最重要的进展 ,在大血管病变诊断中 ,SCTA有望取代有创伤性的常规血管造影。由于SCTA在多数血管病变的应用需进行二维和三维重建 ,SCTA技术参数的选择非
近年来,行政执法与刑事司法衔接工作受到行政执法机关、司法机关以及理论界的共同关注。行刑衔接程序分为行政机关向公安机关移送案件、公安机关受理移送案件以及检察机关对
产业过度进入是我国经济转型期的特殊现象 ,产业进入壁垒失效是导致这一现象的主要原因。本文从进入壁垒的角度分析了我国产业过度进入的结构性与策略性因素 ,并提出了解决问
仿生直立双足机器人共有7个旋转自由度,对其稳定性控制是保证双足机器人稳定行走和姿态变换的关键。传统方法中对仿生直立双足机器人的稳定性控制采用二自由度超外差控制方法
牙本质发育不全是一种发育异常的常染色体显性遗传性疾病,无连锁性,在同一家庭中连续几代男女都可能罹患,牙本质发育不全的发生率为1/8000。牙本质发育不全-Ⅲ型在国内未见报道,