聚类分析中的若干问题研究及应用

来源 :中北大学 | 被引量 : 0次 | 上传用户：xia226

【摘要】

：

聚类分析是知识发现、机器学习和数据挖掘等领域的一个非常重要的基本工具。与传统的分类方法不同,聚类是在没有任何先验知识的前提下,仅根据数据间的相似性将没有标号数据集

【作者】

：

惠周利

【出处】

：

中北大学

【发表日期】

：

2004年期

【关键词】

：

FCM聚类算法 PCM聚类算法 GA-FCSS聚类方法 Gauss混合模型 EM算法 MML-EM算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析是知识发现、机器学习和数据挖掘等领域的一个非常重要的基本工具。与传统的分类方法不同,聚类是在没有任何先验知识的前提下,仅根据数据间的相似性将没有标号数据集划分成不同的类(或簇),使得同一个类中的元素尽可能相似,而不同类中的元素差别尽可能大,因此聚类分析又是一个非监督学习过程。模糊聚类和Gauss混合模型是目前应用最为广泛的两种聚类分析方法,本文主要针对这两类方法中存在的一些基本问题,做了以下几个方面的研究工作:在第一章,我们对文献中存在的主要聚类分析方法做了一个全面的综述,主要分析了划分聚类方法、层次聚类方法、基于密度的聚类方法、基于网格的聚类方法以及基于模型的聚类方法中的多种算法的优缺点。第二章主要就模糊聚类方法中的FCM和PCM及其优缺点展开讨论。首先对FCM和PCM做了较为详尽的综述报告,并从理论和数值试验两个角度分析了FCM和PCM算法的不足之处,然后研究了由J S Zhang等人提出的将FCM和PCM相结合的模糊聚类算法,数值试验表明,该算法能有效地发挥FCM和PCM的优点,克服它们各自的缺点,其聚类效果比单一的FCM和PCM都更为理想。在第二章的最后部分,我们以数值试验说明了模糊球壳聚类算法FCSS不能对加有噪声的同心球壳状数据进行有效聚类,并从理论上分析了产生这一现象的原因,那就是FCSS采用的基于梯度法和交替寻优策略容易陷入局部极值点,从而影响聚类效果。因此,我们提出用遗传算法搜索FCSS目标函数的最优解,并且,为了加速遗传算法的收敛速度,我们还将原FCSS算法与遗传算法进行巧妙地结合起来,产生出所谓的基于遗传算法与FCSS相结合的模糊球壳聚类算法GA-FCSS。大量的数值试验表明,我们提出的GA-FCSS算法是有效的,它能将各种含有噪声的球壳(包括同心球壳)状数据进行很好地分离,得到的球壳中心和半径与真实值较为接近,对数据点的分类结果也几乎完全正确。第三章就基于统计模型的聚类算法展开讨论,主要选择了目前较为实用的Gauss混合模型,它是一种半参数的聚类方法。首先,我们将Gauss混合模型与聚类问题进行了类比,然后推导了求解Gauss混合模型相关参数的极大似然估计的EM算法,并以数值试验实例说明了EM算法对实心椭球状数据进行聚类是有效的。最后,我们以Gauss混合模型为基础,研究了聚类的有效性问题,即待聚类的数据中有多少个类别的问题,这在Gauss混合模型中表现为有多少个正态分支。我们主要研究了基于极小信息长度准则的MML-EM算法,该算法可以同时处理Gauss混合模型的模型选择(估计类别数)与参数估计两个问题。数值试验表明,当以接近真实值的整数初始化聚类的类别数时,MML-EM算法能以较高的正确率选择出最优类别数,但对聚类原型的估计可能出现较大偏差;当以远离真实值的整数初始化类别数时,MML-EM算法选择最优类别数的正确率迅速降低,并且有过高估计最优类别数的趋势。针对这一情况,我们从理论上重新分析了MML准则,找出了出现这样结果的原因,并提出了一种改进算法(IMML-EM)。数值试验表明,我们改进的IMML-EM算法极大地克服了原MML-EM算法的上述缺点,特别是它选择最优类别数的正确率会随着初始类别数的增加而迅速递增,这比原MML-EM算法具有更广泛的实用性,因为人们在实际的聚类问题中常常没有关于类别数的信息,只能在较大的范围内搜索最优类别数。所以,我们的IMML-EM具有更大的实用价值。

其他文献

黑龙江省农业气象应急服务问题研究

黑龙江作为农业大省,农业生产的顺利进行关系着国家的粮食安全和地区的经济社会发展,而做好农业气象应急服务是保证农业生产顺利进行的重要保障。但是农业气象应急服务需要多

学位

农业应急管理气象应急服务气象资源

基于RDMA的高性能Paxos算法的设计与实现

分布式系统在大型网站中应用越来越广泛,多副本状态机是分布式系统容灾备份与负载均衡的常用解决方案,通过分布式一致性协议保证多副本之间数据存储的强一致性,从而提高系统

学位

分布式一致性协议Paxos多副本状态机RDMA

储油罐灌装过程静电分布数值模拟分析与安全评价

储油罐作为石油化工领域的重要生产设备,其内部储存着易燃易爆的油品,一旦发生储油罐静电火灾爆炸事故必会产生严重后果。储油罐静电火灾爆炸事故隐患不易觉察,为降低静电火花放电危害甚至避免储油罐静电事故的发生,有必要深入了解油品静电的产生与消散规律、研究储油罐罐内油品静电电位分布规律、评估储油罐静电事故风险并提出静电消除与安全防护措施。本文利用理论分析、数值模拟和实验研究三种手段对储油罐内油品的静电分布和

学位

储油罐静电分布模型实验安全评价防护措施

河蟹加工又有新突破

期刊

新突破冷杀菌真空袋

固经汤加减治疗经期延长（阴虚血热证）的临床研究

目的:本课题主要是为了探讨中医药治疗月经病经期延长的临床疗效,主要观察固经汤加减对于经期延长(阴虚血热证)72例的临床疗效,与中成药葆宫止血颗粒进行对比,比较两组治疗前后的症状体征改善情况以验证该治疗方法的可行性、安全性及有效性。进一步探讨本病的临床疗效及其机理。方法:本课题共观察72例患者,均来自长春中医药大学附属医院妇科门诊,均为阴虚血热证经期延长患者。将72例患者随机分为两组,各36例,但由

学位

葆宫止血颗粒固经汤阴虚血热证经期延长

新型4-羟基-1,8-萘酰亚胺类化合物的合成及ESIPT性质研究

在当今创新科技的大潮中,新型材料的发展和创新为人们的生活,科技的进步提供支持和便利。在开发新材料的同时,高效的利用和转化已有的丰富资源也是值得深入研究的课题。苊作为煤焦油中的富集产物具备精细加工和定向转化的潜质,其转化产物萘酰亚胺是良好的荧光发色团,在分子荧光探针、细胞成像和光学器件等领域得到广泛应用。本文通过定向修饰萘酰亚胺母体,合成了一系列发光化合物,并针对六个化合物的结构和激发态分子内质子转

学位

萘酰亚胺光致变色细胞成像氢键促进ESIPT有机胺检测

逆向工程中三维激光点云数据的预处理技术研究

逆向工程近年来发展迅速,其本质是一种使产品设计再现的技术,因其独有的优势可以极大地缩短产品的开发周期,因此,在许多领域都得到了广泛的应用。逆向工程依靠三维信息采集设备得到点云数据,然后对采集得到的点云数据导出到实验设备上显示并进行点云数据的预处理,最后对处理好的点云数据进行三维重建,其中数据预处理是逆向工程的关键环节,处理结果的好坏直接影响重构的质量。本文主要研究三维点云数据的预处理,相关工作如下

学位

逆向工程点云预处理PCL区域生长曲率ICP

简谐外势约束下二维玻色气体的玻色-爱因思斯坦凝聚（BEC）

1925年，爱因斯坦曾经预言理想玻色气体在德布罗意波长大于粒子间的平均距离时会发生相变，这时将会有相当数量的粒子处于最低的能量状态，并出现量子简并，这就是著名的玻色-爱因斯

学位

玻色-爱因斯坦凝聚二维简谐势相互作用

超疏水涂层对土楼保护作用的试验研究

夯土古建筑作为人类历史文明中重要的一部分,具有非常高的科学、历史和文化价值。夯土建筑属于生土建筑的一种,由于夯土没有经过焙烧,耐候性差是夯土建筑最大的弱点。目前的中国,福建土楼是仅有的仍然可以发挥使用功能的夯土民居建筑。然而,由于福建省地处中国东南部地区,气候类型是亚热带季风气候,雨水较多,长期的风驱雨侵蚀已经严重降低了土楼结构的适用性和安全性。所以,研究与制备性能优异的表层防水材料对土楼保护具有

学位

福建土楼夯土墙体溶胶-凝胶法有机-无机杂化材料纳米颗粒

抑制端粒酶活性与宫颈癌细胞增殖关系的研究

目的近年来的大量研究表明肿瘤细胞的永生化（immortality）与端粒酶活性密切相关,抑制端粒酶活性可达到抑制肿瘤细胞增殖、阻止肿瘤细胞永生化、促进肿瘤细胞死亡的目的。本

学位

端粒酶宫颈癌HeLa细胞增殖二氧化硒

聚类分析中的若干问题研究及应用

其他学术论文