基于簇的K最近邻(KNN)分类算法研究

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:duchze
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统K最近邻(KNN)分类算法为了找出待分类文本的k个邻居,需要与样本空间中的每个样本向量作比较,当训练样本较多时,导致相似度计算次数过多,分类速度下降。为此,改进了传统KNN算法,将训练文本中相似度大的文本合并,称为一簇,并计算簇的中心向量。待分类文本先与每一簇的中心向量计算相似度,当相似度达到某个阈值时,再与簇中的每个文本计算相似度,在一定程度上减少了相似度计算次数,降低了算法的时间复杂度。根据同一特征出现在文本中的位置不同应具有不同的权重改进了传统的TF-IDF计算公式。
其他文献
<正>近年来,我们在生物学科推行了目标教学。教学目际的确定是依照教学大纲的目的和要求,以教材为依据,以具体的学情出发,从整体到局部进行。首先确定章节目标,然后根据章节
四要件与三阶层的论战,暴露出双方对于犯罪论体系核心概念"构成要件"的误解,有必要正本清源。费尔巴哈之构成要件是从日常语义上理解的"可罚条件总和"或罪状,包含主、客观要
<正> 1、新加坡的所得税法自1948年颁布以来仍保留了其基本结构。由于形势的变化不时地作了些修改。诸如避税、以及规定了对新加坡船舶所得与其船员的报酬所得税免税,对多子
目的:观察复方苦参注射液联合多西他赛治疗激素难治性前列腺癌的近期疗效、不良反应、生活质量。方法:将40例激素难治性前列腺癌患者随机分为对照组及治疗组各20例,2组均采用
20世纪90年代以来,西方国家的刑事立法领域出现了民粹主义的倾向,即所谓的刑罚民粹主义。它借助媒体对司法个案的过分渲染,以及对犯罪受害人的过分关注,鼓动大众对犯罪的集体
国债是现代市场经济中的基础性金融产品,国债市场是现代市场经济中基准性市场。在我国,由于国债市场结构、品种结构、期限结构、应债主体结构等一系列结构性因素的存在,致使
作为近年来国际上迅速发展起来的、备受关注的控制网络新技术,现场总线是一种应用于生产现场、在微机化测量控制设备之间实现开放式、双向串行多节点数字通信的底层控制网络。
通过调研国华系统内有关发电厂生产运营管理情况,分析构成各发电成本的影响因素,研究技术管理的有效措施和办法,提出了降低发电生产成本的途径和方法。
<正> 新加坡将于今年内,推行一项消费税法例。新加坡财政部长胡赐道在一份声明中表示:“一项基础广泛的消费税法例,将于今年内实施。实施执行将延至收益状况允许为止”。该建
针对传统模拟视频监控系统的多种缺点,通过对嵌入式芯片Hi3511的分析与研究的方法,设计并提出了一种基于Hi3511芯片的嵌入式网络视频监控系统的设计方案。阐述了视频监控系统