考虑信息均衡与数据簇可分性的模糊软子空间聚类

来源 :厦门大学 | 被引量 : 0次 | 上传用户:deeyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类技术在很多领域都得到了广泛的研究和应用。本文首先对聚类问题的相关研究背景进行了总结,对常用的聚类算法进行了一定的分析介绍。通过对基于划分的聚类算法入手,研究常用的k-近邻算法和k-均值算法。根据k-近邻聚类算法提出了一种改进的特征加权算法。进一步研究k-均值算法,模糊c均值聚类算法FCM是最常用的数据聚类技术之一,它通过引入模糊的概念对传统的k-均值聚类算法进行了改进,使聚类算法效果得到了明显的提高。尽管从各个不同的角度提出了一系列FCM算法的变形,针对不同的聚类问题其聚类性能得到了一定的改善,但是FCM算法依然存在三个关键问题影响其聚类性能,具体表现在:1.对聚类数据簇的先验分布特征敏感。2.对聚类数据簇的先验概率敏感。3.容易形成可区分性差的数据簇划分结果。当面对形成聚类的数据簇先验分布特征不一致,或者先验分布不均衡这样的聚类问题时,FCM聚类效果不令人满意。为了克服这样的问题,本文提出了考虑信息均衡与数据簇可分性的模糊软子空间聚类算法EWFCM。我们提出的算法的优势主要体现在以下的几个方面:引入了数据簇类间距离以突出不同数据簇之间的可区分性,且在此基础上提出信息均衡数据簇内散布度,以及不同数据簇可分性的计算方法;引入了软子空间以提高具有不同分布特征数据簇的描述能力。并且在引入类间距离的建模过程中,将子空间描述模型与子空间之间的可区分度进行综合考虑,统一优化。我们将提出的考虑信息均衡与数据簇可分性的模糊软子空间聚类算法与传统的FCM算法,以及一些其他相关的改进算法进行比较,并进行一些对比实验。实验采用了不同形态和数据分布的人工生成数据集,真实图像以及IRIS数据集来实现不同算法性能的对比。实验结果显示我们提出的算法性能优于传统FCM算法和其他一些改进算法。
其他文献
“十二五”时期以来世界经济处于后金融危机深度调整期,我国经济发展向“新常态”过渡,整体的宏观指标表现良好,但深层次的结构性矛盾仍然突出。接下来的“十三五”时期我国
装载机属具翻译属于科技翻译的一类,随着科技的全球化的深入发展,装载机属具翻译在科技交流中正在彰显其重要性。为了更好地科技交流,本文选择《装载机属具应用介绍》作为翻
目的:应用现代数据挖掘技术分析刘丽芳教授治疗肉芽肿性乳腺炎的用药规律。根据本次数据挖掘的结果,结合刘丽芳教授治疗肉芽肿性乳腺炎的文献及临床医案等,探讨刘丽芳教授对肉芽肿性乳腺炎病因病机及辨证论治的学术观点。总结中医药辨治肉芽肿性乳腺炎的临床经验,传承刘丽芳教授的学术思想。方法:本研究分为理论研究、回顾性分析2个部分。在理论研究上,阅读刘丽芳教授相关文献,认识和理解刘丽芳教授提出的肉芽肿性乳炎的治疗
燃料电池(Solid Oxide Fuel Cell,SOFC)能量转换效率高,所用燃料来源丰富且清洁无污染,具有广阔的应用前景。SOFC在工作时,电池内部温度的不均匀分布会影响电池性能与工作效
随着中国-东盟自贸区(CAFTA)发展的不断深入,各国在金融创新方面的合作不断加强。李克强总理提出打造CAFTA升级版的意见,进一步强调了CAFTA金融创新发展的意义。在这样的背景
随着互联网技术、社会信息化及计算机技术的不断蓬勃发展,信息流转得越来越快,企业信息化建设的是现代社会发展的整体趋势。某设计集团的主营业务为建筑设计项目,随着近年房
目的:控制感作为一个基本心理功能,对人类生存和健康具有重要意义。不仅可以增强人们的正性情感,还能够有效降低负性情感对个体的影响。近期研究证据发现,主动选择比被动选择
进入21世纪,我国的农业发展坚持走农业现代化道路,把科技力量作为农业发展的重要动力来提高农业的现代化水平。而农业技术的推广便是致力于把先进的农业科学技术应用于当代的
目前随着点源污染得到有效的治理,非点源污染成为造成环境污染的首要因素,是目前治理环境污染的关键。AnnAGNPS模型是众多非点源污染模型中应用最为广泛和成功的模型之一,是
目前,随着全球经济的发展,人口也在不断增加,能源短缺的问题日益严重,空调作为全球能耗中占比较大的部分,节能改造势在必行。另一方面,传统空调存在着一系列的问题,例如能效比较低、温湿度耦合处理带来的损失、送风噪音、吹风感等。基于以上问题,本文提出了一种基于金属毛细管网的冷剂式辐射空调系统,该系统采用创新的金属毛细管网作为空调末端设备,将金属毛细管网直接敷设于建筑物地面、墙面或顶棚内,实现空调末端与建筑