基于宽度优先搜索的K-medoids聚类算法研究

来源 :长沙理工大学 | 被引量 : 1次 | 上传用户:xuwei1st
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络的迅速发展和计算机存储技术的不断提升使得数据量爆炸式增长,人们要从海量数据中挖掘出有用信息越来越难。数据挖掘是指从数据库中发现未知的、对决策有潜在意义的知识和规律,已广泛应用于诸多领域。聚类分析作为数据挖掘的一个重要研究分支,是一种数据划分或分组处理的重要手段,旨在通过分析数据对象间的相似性把数据划分成有意义的簇。本文主要研究对象是K-medoids聚类算法,它是一种基于划分的方法。首先介绍了聚类分析的相关概念,然后重点对K-medoids聚类算法进行了分析。该算法不易受极端数据的影响,应用广泛。但它具有对初始中心点敏感、中心点随机选择以及聚类精确度不够高等缺点。本文主要从以下几个方面进行分析研究,并针对其缺点进行相应的改进。首先,针对传统K-medoids聚类算法对初始中心点敏感的问题,提出利用粒计算对传统K-medoids算法进行数据规约处理,获取K个有效粒子,遴选该K个粒子所对应的K个中心点作为初始中心点。数据规约算法在Iris、Wine数据集中进行测试,实验结果显示数据规约的中心点分别位于不同的簇中,从而避免了传统算法对初始中心点敏感的问题。然后,在有效数据规约前提下,为解决传统K-medoids聚类算法的收敛速度缓慢和聚类准确率不够高等缺点,提出了宽度优先搜索策略。根据对象间的相似性分别对K个粒子中的对象建立以中心点为根结点的相似对象二叉树,通过宽度优先搜索遍历二叉树迭代出最优中心点,以此来减少聚类算法的迭代次数;同时提出一种权衡簇内和簇间距离的准则函数,以此来增强算法的适应性和聚类精度。实验结果表明:新算法在UCI中Iris和wine标准数据集中测试,在有效缩短迭代次数的同时提高了算法的聚类准确率。
其他文献
随着网络业务量的不断增长和高性能光网络设备(如光交叉连接器OXC,光分插复用器OADM)的出现,波分复用技术(Wavelength Division Multiplexing,WDM)成为下一代骨干网络的核心技术
本文针对MPEG2到AVS的转码关键技术,进行了理论和实验分析。MPEG2是现代广播和电视领域采用的视频播放标准,同时,作为DVD格式的标准应用,它在数字电视传播领域有着里程碑式的
在真核生物细胞中,染色质(chromatin)由遗传信息的携带者DNA和相关组蛋白结合而成,是调节生物新陈代谢、遗传和变异等的物质基础。而在大部分真核生物中染色质都有着相似的亚基
金属磁记忆检测技术是一种对早期损伤进行诊断的一种无损检测方法。通过对铁磁性材料在应力集中处产生的自有漏磁场进行分析,判断铁磁材料的应力集中程度。本文研究了磁记忆
随着3G移动通信系统商用部署的完成,多媒体服务与应用得到了广泛推广,而3G在系统容量和服务质量上的局限性使得各国都在加紧研究容量更大、速率更高、质量更好的第四代移动通信
超宽带技术(UWB)由于其数据传输数率高、成本低、功率小等特点,被认为是现在乃至未来短距离无线数据通信领域的主要技术之一。而正交频分复用(OrthogonalFrequency Division M
蜂窝网络的引入是通信史上的巨大创举,它通过频谱复用技术极大提高了无线通信系统的容量,已经被广泛的应用于第一至第三代移动通信系统中。然而随着对通信要求的提高,如高速率、
本文是对“数字集群通信系统”项目中基站控制器BSC的硬件、软件设计。项目参考欧洲TETRA集群通信标准。该标准对移动台MS侧的信令有详细的描述,但对基站BS侧没有具体的给出。