基于Spark平台的K-means算法的设计与优化

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:yutianfeipao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类中心需要手动设置是K-means算法最大的问题,而通常情况是并不能确定现实中数据的分类情况。为了解决这一问题,提出了一种新的OCC K-means算法。不同于传统算法以随机选择的方式产生聚类中心,该算法进行必要的预处理,利用UPGMA和最大最小距离算法对数据点进行筛选,得到可以反映数据分布特征的点,并作为初始的聚类中心,以提高聚类的精度。从两次的实验结果可以对比出,在不同的数据集上,改进算法在衡量聚类效果的准确率、召回率、F-测量值上的表现要优于传统K-means算法。这是因为OCC算法选择的中心点来
其他文献
为了进一步明确不同高粱品种种植密度与土壤含水量、生长发育、生物产量及产量构成因素的关系,以通辽市农业科学研究院高粱研究所选育的高粱杂交种通杂139为试验材料,采用随
由中国林科院专家首次对河南省南阳市淅川县森林与湿地资源综合效益进行的价值综合评估显示,淅川县的森林与湿地生产总价值达116.78亿元。这一数据有效反映了渠首林业建设在促
学位
“高效”的课堂教学,教师应该做一盏“节能灯”——低耗、高效,照亮每一个学生。而教师要在课堂教学中拥有“节能”的工作品性,需要课前的充足“储备”,这“储备”起码应做到两点
三秦大地,渭水之滨,不仅哺育了西藏第一所高等学校,而且还塑造了民族团结的典范。在西藏民主改革60周年之际,这所因西藏新生而诞生,又因西藏新生而荣耀的高等学府,以每年3月份开展
报纸
从古老的活字制版到现在的激光雕刻制版,制版技术经历了从手动到自动的变化过程。而自动化设备离不开电路控制,CTP中有着复杂的电路控制设计,要求机器的每一个动作都需要执行和
期刊
CTP
英雄出自少年,这是金庸武侠小说的一大特色;少年崇拜英雄,这是金庸迷们的一大心理。两者一凑合,愿打愿挨,于是金庸先生的拳打脚踢,自然博得阵阵的喝彩。但拉场子容易,动真家
介绍了增产丙烯的三种工艺;结合蒸汽裂解装置增产丙烯(烯烃置换工艺、MOI工艺)丙烷脱氢工艺、FCC装置增产丙烯,进行技术经济比较,认为结合乙烯裂解装置增产丙烯的工艺是一条最有前途的工
阅读是语文教师专业发展道路上必不可少的环节。将中学语文教师的阅读状况与教师专业发展作为研究中心,重点分析影响语文教师阅读的内在因素和外在因素。为中学语文教师专业
鉴相器是锁相环的重要部件之一,其功能是检出输入信号与压控振荡器输出信号之间的相位差,变换成电压,用以控制压控振荡器的振荡频率。近年来,数字式鉴相器日益发展。由于这