自适应密度峰划分聚类算法研究及应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:yyk20071999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域最为重要的技术之一,至今已在理论和方法上取得了丰硕的研究成果。聚类分析能够按照样本点间的相似度将数据分成若干类或簇。划分聚类算法是在实际应用中最为常见的聚类方法,k均值聚类算法(k-means)、k中心点聚类算法(k-medoids)和模糊C均值聚类算法(FCM)是最为典型的划分聚类算法。作为聚类分析算法中经典传统算法之一,划分聚类算法以其快速,简单的优势,倍受关注。然而,划分聚类算法存在许多缺陷。例如,聚类个数必须预先设定;对初始聚类中心极为敏感,如果初始聚类中心选择不当,算法很容易陷入局部最优解,而非全局最优解;对噪声点和离群点非常敏感。本文以上述划分聚类算法为研究对象,做了以下两个方面工作:第一方面,本文针对划分聚类算法需要事先给定初始聚类中心和聚类个数的缺点,提出了一种自适应密度峰初始化聚类中心算法。其主要思想是:计算每个样本点的局部密度,密度较大且相互距离较远的样本点作为初始聚类中心。这样得到的初始聚类中心能够位于不同类簇,并自动得到数据集的聚类个数。将该初始化算法结合k-means算法和k-medoids算法得到改进的D-means算法和D-medodis算法。第二方面,对于FCM算法,本文在得到初始聚类中心的基础上,结合样本点密度信息,构建新的初始隶属度矩阵,并在隶属度矩阵的更新上加上密度信息,得到改进的D-FCM算法。并将其应用于医学图像分割上,得到了较好的结果。在基准数据集以及医学图像数据集上的实验表明,改进后的三种划分聚类算法能够自适应识别数据集的聚类个数和获得好的初始聚类中心,同时能够减少聚类迭代次数,缩短聚类时间,提高聚类准确率,并且具有一定的鲁棒性。
其他文献
电流源逆变器(Current Source Inverter,CSI)以其拓扑结构简单、输出波形质量好、短路保护可靠等优点在不间断电源、电力传动与调速、可再生能源并网发电等领域有着广阔的应
直拼法是针对英语学习效果较为突出的教学方法。农村学生的英语学习兴趣低、学习效率差与课堂上较为落后的教学方法有直接关系。本文用实证研究的形式对直拼法英语教学在农村
客车企业的技术标准,每个厂,每一个国家的标准高低都不一样,国内各家企业在出口客车的同时,于是,技术标准的比拼,成了客车出口行业内竞争的一个重要方面。笔者所在部门为海外
随着科技快速发展,人们的生活方式随着各种智能终端的普及而改变,i OS系统作为目前使用较多的操作系统,面临的安全威胁也日渐突出。由于i OS系统的闭源特性,对其安全研究具有
为了应对当前通信网络所面临的快速增长的用户数量和传输数据量,提高无线网络覆盖质量并降低网络部署成本,云无线接入网(Cloud-RAN)有望成为5G通信网络中具有变革意义的接入
本论文研究了胚蛋给养N-氨甲酰谷氨酸(NCG)对肉仔鸡孵化和生长性能、胴体组成和肉品质的影响,并从肌纤维类型、肌肉能量代谢、抗氧化性能等方面初步探讨了胚期给养NCG对肉仔
研究目的宫颈癌发病率和死亡率逐年上升。尽管随着科研力量的不断壮大,妇科肿瘤在当今医疗中的治疗取得了很多进步,但是对于接受过手术治疗、放化疗的晚期宫颈癌病情进展的患
人们在房屋贷款时,银行为保障其信贷安全,多以投保房屋贷款保证保险作为贷款放款的前提条件。而目前我国保险法未对保证保险做出具体规定,理论上对保证保险的内涵及法律性质
随着我国城市化的不断推进,城市面积不断扩张,城市所需土地已远超过城市国有土地能够提供的范围,但农村宅基地面积却不断增加,存在大量闲置浪费问题,造成城市与农村土地资源
在许多高层的建筑、大跨度的桥梁以及公共建筑等现代建筑中,钢管混凝土排架柱也得到了广泛的应用。但在工业厂房中的应用还仅仅尚处于初步阶段,可借以参考的经验并不多。因此