基于数据抽样的自动k-means聚类算法

来源 :现代电子技术 | 被引量 : 0次 | 上传用户:lpt207
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决传统k-means算法需要输入k值和在超大规模数据集进行聚类的问题,这里在前人研究基础上,首先在计算距离时引入信息熵,在超大规模数据集采用数据抽样,抽取最优样本数个样本进行聚类,在抽样数据聚类的基础上进行有效性指标的验证,并且获得算法所需要的k值,然后利用引入信息熵的距离公式再在超大数据集上进行聚类。实验表明,该算法解决了传统k-means算法输入k值的缺陷,通过数据抽样在不影响数据聚类质量的前题下自动获取超大数据集聚类的k值。
其他文献
《生物信息学》是一门实践性很强的课程,可为生物科学专业学生深入学习生物化学、分子生物学、遗传学等主干课程奠定基础。考虑到地方本科院校的实际,该文阐述了地方本科院校开
由两种兽用中药复方制剂禽族得乐和复方黄芪治疗鸡肾型传染性支气管炎,实验表明,禽族得乐治疗患肾型传染性支气管炎鸡群,其临床症状消失快于复方黄芪。
浙江科技学院作为第一批"卓越计划"的10所地方本科院校之一实施高校,在实验实践教学方面进行一系列的改革和实践。学校在开放性实验项目立项、项目工作量计算、学生创新学分管
奶牛的围产期是奶牛养殖过程中一个较为重要的阶段,围产期饲养管理的好坏关系到奶牛的健康、繁殖性能和生产性能,所涉及的工作较多,包括饲料、管理和疾病的预防工作等。奶牛
《建筑给水排水设计规范》(2003版)实施之前屋面雨水管道都按原规范进行设计。期间不少建筑天面雨水管道在投入使用后均不同程度的出现返水、喷溅的问题,引起住户投诉。本文对这
近日,由上海虹桥商务区管委会与中国电信上海公司共同建设的全国首个“5G示范商务区”正式宕动,双方还共同发布了首批基于5G的创新应用.
期刊
通过分子动力学模拟研究了2,6二氨基3,5二硝基吡嗪1氧化物(LLM105)在不同溶剂中的晶体形态。结果表明LLM105在真空中的晶体形态主要由7个晶面决定,分别为(020),(011),(110),(
针对传统的卷积并行计算模型中,存在着大量的消息传递,负载不均衡等问题;提出一种新的基于MPI同步模型的并行卷积算法;该模型采用消息传递的方式进行进程间的通信,同时有效平
小学阶段是一个人成长和发展的重要时期。数学教师既要教书又要育人。既要教学生学会观察、分析、思考。又要重视学生的思想品德教育,培养学生良好的心理素质和个性品德。
基于光时域反射(OTDR)技术的分布式光纤管道预警系统,利用与管道同沟敷设的光缆中的一芯,可以有效检测管道沿线的振动情况,采用模式识别的方式鉴别振动事件的类型,可以有效检测