一种改进K-means聚类算法与新的聚类有效性指标研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:wylalone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种无监督的机器学习技术,是从无标记数据集中获取信息和知识的重要手段,目前已经被广泛应用于客户推荐、模式分割、视频图像处理等领域。作为一种基于划分的聚类算法,由于具有适用范围广泛和算法伸缩性强等优点,K-means算法被广泛应用于聚类分析领域。然而初始类簇中心点的随机选取导致了K-means算法准确性较差和聚类结果不稳定的特点,同一数据集多次聚类划分结果可能存在较大差异。聚类有效性指标是用来评价聚类算法划分结果最常用的方法,聚类有效性指标基于聚类划分结果类簇内紧密性、类簇间分离度等信息对聚类结果质量进行评价。目前已经有众多聚类有效性指标被提出,然而现有的大多数聚类有效性指标都存在聚类结果稳定性差,不能有效反应真实数据集的聚类结果质量等问题。针对以上的问题,本文首先对传统的Kmeans算法进行了改进,然后提出了一种新的聚类有效性指标CSI。本文主要做了以下几个方面的工作:(1)针对传统K-means聚类算法存在的随机选取类簇中心点导致算法结果不稳定和容易陷入局部最优解的问题,提出了一种优化中心点选取的改进K-means聚类算法:DT-Kmeans算法。算法根据数据对象与数据集中其它数据对象第t近邻的欧式距离确定邻域参数Eps,基于邻域参数Eps统计数据对象密度。在初始类簇中心点选取阶段,算法首先随机选取第一个类簇中心点,随后的类簇中心点选取将基于数据对象密度信息和数据对象与已存在类簇中心点的距离信息。(2)提出了新的聚类有效性指标:CSI指标。新提出的CSI指标适用数据集聚类划分结果簇内紧凑度和簇间分离度对聚类质量进行评价,通过对这两个参数进行加权并使用线性组合平衡二者的关系,使得指标能在对数据集聚类质量评估时有着稳定的评估效果。(3)使用了多个的模拟数据集和真实数据集对新提出的DT-kmeans聚类算法和CSI聚类有效性指标进行了实验测试。实验结果表明,DT-kmeans算法与传统K-means算法、K-medoids算法和K-means++算法相比有着更高的聚类质量,同时聚类划分结果的稳定性与其它算法也有了明显提升。CSI指标与其它5种现有的指标(COP指标、CSP指标、DBI指标、DI指标、I指标)相比,能够更准确地对数据集的聚类质量进行评价,同时适用范围也有了提升。
其他文献
针对某型航空发动机高压涡轮盘建立有限元模型,用有限元程序计算该结构在循环载荷作用下的塑性蠕变变形,并考虑温度载荷的作用。计算了结构危险点在相应温度下的低循环疲劳寿
近几年,我国医疗市场快速发展,但同时也存在医院管理跟不上,成本管控不严等问题亟待解决。医院废除以药补医后,更是倒逼着公立医院更加重视医院成本的管控。公立医院为了维持高效运营提升竞争力,医院对成本管控的重视达到前所未有的高度,医院管理人员通过学习探索期望找到更适合医院经营管理实践的新的成本核算方法,目的是提高医院成本核算数据的科学性,为管理层决策提供有力的数据支撑。所以不论公立医院还是民营医院都迫切
随着建筑物数量的增加,建筑能耗也在上升,空调系统作为建筑物的基础设施,确保了人们的日常舒适度。但空调系统带来的能源问题也很明显。鉴于这种情况,考虑到中国建设资源节约型和
通过测定和采集自然或人工地物的大小、空间位置、属性等信息的学科称为测绘,测绘这一学科历史悠久。近几年,在社会技术不断进步的大背景下,工程测量中现已广泛使用数字化测
多支点梁结构广泛应用于客机及运输机的翼面类结构。支点的位置选择对翼面结构的变形有较大影响。本文以某型飞机襟翼为例,研究了适用于翼面类结构支撑位置选择的计算过程,为
动漫产业商业模式应具有一般商业模式的共性,美国、日本等动漫强国的商业模式体系相对完备一些。我国动漫产业商业模式实践发展以及对其进行的理论研究都远远处于落后水平,需
甲午中日战争爆发之初,英国人赫德指出:“现在中国除了千分之一的极少数人外,其余九百九十九人都相信大中国可以打败日本.[1]当时的封建官僚和土大夫,昧于世界大势,沉酒干醉生梦死
国务院《关于促进信息消费扩大内需的若干意见》的出台使医疗信息消费迅速兴起,仅2014年8月至9月中旬,就有超过7亿元的资金投入这一领域。然而与美国医疗相关信息消费发展模式