基于最近邻的K-means聚类算法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:liangxiaoyan0307
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类作为数据挖掘的重要任务之一,一直以来都备受关注,并被广泛应用于商业智能、图像模式识别、Web搜索等众多领域。K-means聚类算法是一种在生活、生产实践中被广泛使用的经典划分聚类算法,但其仍然存在着聚类个数难以确定,对噪声数据和初始聚类中心敏感以及数据量大时计算距离所花费的高时间代价等缺陷。本文针对K-means的上述问题进行了深入研究,并提出了相应的改进策略。主要研究内容如下:(1)针对K-means算法对初始聚类中心敏感的问题,给出了一种新的初始聚类中心选择算法。该算法从聚类所形成的簇应具有在较小的半径内具有较大密度的特征出发,通过计算每个数据点的最近邻,从而获得每个数据点的距离和密度,构造了一个可以反映该点成为初始聚类中心的概率函数来确定最终的初始聚类中心。实验结果表明,通过该方法获得的初始聚类中心的质量高于同类比较算法。(2)针对K-means算法计算距离的高时间代价缺陷,给出了一种基于影响空间的聚类算法。该算法首先通过计算每个数据点的最近邻和逆近邻,即该点的影响空间对数据集进行预处理,从而得到一个新数据集,然后在经过预处理后的新数据集上进行K-means聚类,从而有效的减少了参与运算的数据量,提高了聚类效率。(3)将边界数据进行准确的区分是困难的,尤其是对于介于相邻两类型之间的边界光谱数据来说。这里针对边界数据聚类困难的问题,给出了一种新的边界数据聚类方法。该方法结合光谱数据本身高维、海量的特点,为了使光谱的所有维度能够在同一个标准下处理,首先需要对光谱进行归一化;为了减少计算量,需要减少参与运算的数据量,而(2)中的影响空间可以达到上述目的;另外,由于K-means算法初始聚类中心的随机选择会对边界光谱数据最终的聚类结果有一定影响,而通过(1)中的方法确定聚类中心将在一定程度上避免这个问题的发生;最后利用确定的聚类中心在归一化后的数据集上进行K-means聚类来获得最终的聚类结果。将该方法应用于恒星光谱数据上的实验结果展示,该方法很好地解决了边界光谱聚类的问题,验证了该方法的有效性,为进一步研究宇宙的形成和演化提供了有力支撑。
其他文献
移动互联时代,移动音乐客户端成为年轻用户群体活跃量最大的App,使用移动音乐客户端的用户数量也逐年上升,随着移动互联技术的发展,听音乐的使用场景也更加多元化。随之延伸
量子密码学是一类建立在量子力学基本原理上的密码学的分支。不同于经典密码体系的是,量子密码的安全性并不依托于计算复杂性,而是由物理学的原理来保证。目前,量子密码学已经成为了密码体系中的研究热点,其中除了量子密钥分发(QKD)被广泛研究,基于QKD的量子保密查询也是近年来的热点内容。本论文是量子保密查询协议在抵抗联合测量攻击方面的理论性研究。对于大多数基于QKD的量子保密查询难以抵抗联合测量攻击的问题
童话,是儿童在认知过程中或多或少均会接触到的文学作品,它发挥着不可忽视的作用。近代以来,随着社会的开放与发展,多文化间的交流日益密切,而通过翻译西方优秀童话作品,则可
随着能源危机加重和环境恶化,为了提高发动机的热效率、降低有害气体排放,清洁燃料越来越受到人们的关注,包括液化石油气、天然气、甲醇等低碳燃料。深入理解和研究这些低碳燃料的自燃特性,对于化学反应动力学简化机理的验证和提高发动机的燃烧效率具有重要意义,为一项较为基础的燃烧研究。本文利用激波管实验平台,在不同温度、压力、燃空当量比下,测定了液化石油气、天然气和甲醇三种低碳燃料的着火延时,着重了进行对比研究
银屑病是一种慢性复发性炎症性的皮肤病,其中头皮为银屑病最常发病的部位之一,常首先出现在头皮或以头皮病变为主,称为头皮银屑病。头皮银屑病的典型特征为红斑、鳞屑伴瘙痒,鳞屑表明混杂有皮脂而呈灰黄色,剥离后见银白色,或兼见束状发,病情顽固难愈。当前临床治疗较为局限,由于受到头皮部位的特殊性及多重因素的影响,无法达到患者期许的治疗效果,对其外在形象、自信心甚至生活质量造成了极大的伤害。导师经过多年的临床经
学位
随着云存储技术的发展和应用,越来越多的用户将数据上传于云存储中,云存储虽高效方便,但云存储中数据的机密性、完整性等问题还是有待解决的。部分用户采用数据加密存储技术实现云存储数据的机密性保护,但是不能解决云存储中数据细粒度访问控制问题。基于密文策略属性加密技术的提出不仅可以实现数据的安全存储,同时也能实现云存储数据细粒度的访问控制。在基于密文策略的属性加密方案中,数据属主通过制定访问策略,限制具有特
随着物联网技术的快速发展,现代电力系统已成为复杂的网络物理系统。大量智能设备促进了智能电网中的高效发电,输电和配电。状态估计(SE)是智能电网中的基本模块之一,其通过使用一组传感器测量和网络拓扑来评估电网的运行状态。这一过程中的一个主要问题是传感器收集的测量结果的真实性。影响测量结果的各种途径中有一种称为虚假数据注入攻击,它是一种从攻击者的角度对电网注入虚假数据的方法。该方法通过对多个测量仪器的测
肛门失禁(Fecal Incontinence,FI)是一种常见临床症状,FI患者会不同程度地丧失对肠道内容物排出的自主控制能力。FI并不是一种严格定义的临床疾病,其生理影响一般仅限于产生异味、疼痛及皮肤溃烂,但它会对患者的生活质量造成严重影响。FI在成年人群中的发病率约为15%,随着人口老龄化的发展,其发病率有逐年上升的趋势。目前,针对FI的主要治疗方法有物理治疗、药物治疗、括约肌修补术及骶神经
新中国成立初期,中国面临着恢复国民经济、维护社会稳定、进行民主改革的重任,妇女权利的实现受到中共的高度重视,针对中国女性长期以往所受压迫、剥削状况,党和政府制定了一系列以实现男女平等为基本原则,以动员妇女参加新中国各项建设事业为基本目标的妇女政策,引导广大妇女群众投身建设新中国的伟大实践,推动女性在政治、经济、文化、社会各方面的进步,把中国妇女解放事业成功推进到新阶段。本文从新中国成立初期的历史背
摘 要:在乡村社会转型背景下,农村人情正呈现出异化样态,人情治理成为一项刻不容缓的治理任务。人情异化具体表现在人情名目增多且不合理、人情周期缩短、人情礼金提高三个方面。人情异化不仅导致人情功利化,其情感性和道德性面向衰微,也对家庭发展和乡村社会秩序造成了不利影响。经济精英的财富展演、留守村民的关系依赖、失衡人情的再平衡构成人情异化的形成机制,而在乡村社会的结构性变迁下,社会治理体系失灵加剧了人情秩