模糊c-均值算法的研究

被引量 : 0次 | 上传用户:keithforever
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的不断发展及数据库管理系统的广泛应用使得各组织机构积累了海量数据,为了从中提取有用信息,更好地利用这些数据资源,人们提出了数据挖掘技术。数据挖掘技术将传统的数据分析方法与处理大量数据的复杂算法相结合,是目前信息领域和数据库技术的前沿研究课题。聚类分析技术是数据挖掘的主要方法,它将数据划分成有意义或有用的组(簇),在众多的聚类分析算法中,模糊聚类算法是当前研究的热点。本文对其中最经典的模糊c-均值(FCM)算法进行了深入研究,并对它加以改进和优化,实验验证了方法的可行性和有效性。本文系统分析了FCM算法和马氏距离的基本原理,从而利用马氏距离的优点来弥补FCM算法中存在的缺陷,其次利用优化的KPCA进行特征提取,本文从三个方面对FCM算法进行了改进。首先,经典的模糊c-均值(FCM)算法是基于欧氏距离的,它只适用于球型结构的聚类,且在处理属性高相关的数据集时,分错率增加。针对这个问题,提出了一种新的聚类算法(FCM-M),它将马氏距离替代模糊c-均值中的欧氏距离,并在目标函数中引进一个协方差矩阵的调节因子,利用马氏距离的优点,有效地解决了FCM算法中的缺陷,并利用特征值,特征矢量及伪逆运算来解决马氏距离中遇到的奇异问题。其次,经典的模糊c-均值算法认为样本矢量各特征对聚类结果贡献均匀,没有考虑不同的属性特征对模式分类的不同影响,且在处理属性高相关的数据集时,该算法分错率增加。针对这些问题,提出了一种基于马氏距离特征加权的模糊聚类算法,利用自适应马氏距离的优点对特征加权处理,从而对高属性相关的数据集进行更有效的分类。最后,利用核函数主元分析(KPCA)方法对大样本,高维数据进行特征提取预处理,并结合文化算法(CA)选择最优或接近最优的核函数,将其用于模糊c-均值(FCM)聚类中,不但有效地提取了样本的非线性信息,而且使样本维数得到约简。利用MATLAB语言实现上述方法,并进行了UCI数据集聚类和图像分割两组实验,从实验结果看,均达到预期效果。
其他文献
适合于2~3岁儿童的玩具及游戏材料问题一直是幼儿教育实践中迫切需要解决的实际问题,对这些问题的研究与探索有着重要的理论价值和实践价值。
本试验以新鲜牛骨为原料,通过清洗,脱脂等预处理将其制成粉末,采用蛋白酶水解的方法确定最佳的胶原多肽生产工艺,对酶解剩余的骨渣采用酸处理的方式,提取可溶性骨钙并研究制
<正>民间流传着一种"过午不食,饿治百病"的说法,为了养生,不少人硬是忍着饥饿不吃晚饭。不过,不吃晚饭真能养生治百病吗?说法一:晚饭吃太多会堆积脂肪【专家分析】北京中医药
传统儿童发展心理学视角下的儿童美术心理研究将儿童绘画作为儿童智力发展水平与阶段的实证材料,提出了与儿童智力发展阶段相对应的儿童绘画发展阶段模型,完全没有考虑儿童作
随着因特网、电信网、广播电视网的逐步融合与发展,解决图像存储与传输问题的压缩编码技术逐渐成为国内外研究的热点。从JPEG、MPEG-1到JPEG-2000、MPEG-4反映了图像压缩编码
环糊精是淀粉经酶降解环化后的产物,其具有内疏水外亲水的筒状结构,可以与多种分子形成包合物,从而改变客体分子的特性,因而在食品、医药、化工及轻工等领域得到了广泛的应用
为保障畜禽产品有效供给和公共卫生安全,以稳步提升我国动物卫生安全水平为目标,文章采用动物卫生经济学思路,认为我国畜禽养殖的多元化经营存在着与规模经济理论相悖的情况
对幼儿园进行等级评估是各省市教育行政部门对幼儿园进行业务管理的重要手段,很多省市相继出台或修订了幼儿园评估标准。竖于我国地域广阔,各地自然状况与社会文化经济发展水
并苯类结构通常具有大π-共轭结构,如红荧烯(rubrene),能在其单晶结构中看到很强的分子间堆积作用,使得该类分子具有良好的光电性能,在有机光电器件的应用方面表现出极大的潜力.随
研究生期间我的研究内容主要分为以下三个部分:1.无配体单质铜粉直接催化杂环的C-H键和芳基卤的偶联反应双芳基环化合物在有机合成中是一种重要的结构,因为它们是许多天然产品