面向分类型数据的模糊聚类算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:wudizihao123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术在工业界的迅猛发展,数据的规模与人们获取的数据也与日俱增,对这些海量数据的处理已成为近来年备受关注的问题。数据挖掘作为一种通用的知识发现技术,是在海量数据中发现数据间内在关系的过程。聚类分析技术是数据挖掘中对数据处理的一种重要方法。由于数据不断呈现出属性类型的多样性、规模的海量性、分布的不均匀性,不同的数据类型需要不同的聚类算法。目前,对数值型数据的聚类分析取得很多的成果,而在实际应用中存在大量的分类型数据。由于分类型数据不具有数值型数据固有的几何特性,因而在聚类算法和模型上与数值型数据有较大不同,近年来针对分类型数据聚类算法的研究得到了广泛的关注。  模糊聚类通过将模糊集理论应用到聚类分析中,提高对数据的模糊处理能力,能较为清晰、客观地反映现实事物,因而在许多领域被广泛应用。模糊k-modes(FKM)算法是模糊聚类中备受关注的一种算法,具有局部寻优能力强且收敛速度快的特点,成为分类型数据模糊聚类算法关注的热点。但FKM算法对初始中心点的选取较为敏感,算法以不同的初始中心进行聚类会得到不同的结果,影响最终的聚类结果。此外FKM算法由于采用迭代的搜索技术,同时解空间内存在大量局部最优点,因此易陷入局部最优,而无法得到全局最优。  针对以上问题,本文开展了以下工作:  (1)提出结合离群点检测的初始中心选择算法。针对FKM算法对初始中心选取敏感这一问题,通过调整初始中心选择过程中距离与密度之间的关系,加大初始中心选择中距离所占的权重,使得寻找到的初始中心更具有分布性。同时,引入基于距离的离群点检测技术,对改进初始中心选择后得到的候选数据集进行筛选,将候选数据集中的离群度较大的点剔除。实验结果表明,改进的初始中心选择方法提高FKM算法的准确率与精度,降低FKM算法对初始中心选取的敏感程度。  (2)提出基于改进遗传算法的模糊聚类算法(IGAFKM)。将遗传算法与模糊聚类算法相结合,利用遗传算法的随机搜索提高模糊k-modes算法的全局寻优能力,加快算法的收敛速度。遗传算法是一种全局优化算法,通过模拟自然界生物的进化过程搜索问题的最优解,具有算法简单,搜索范围广泛的特点。根据种群中个体的多样性,对遗传算法的交叉与变异算子进行动态调整,以保证整个种群的多样性,避免算法收敛到局部最优,加快算法向全局最优点的收敛过程,从而提高FKM算法的全局寻优能力。实验结果表明,改进遗传算法的模糊聚类算法(IGAFKM)与FKM算法,传统遗传模糊聚类算法(GAFKM)相比在收敛速度上有所提升,同时IGAFKM算法的准确率也优于FKM算法与传统遗传模糊聚类算法(GAFKM)算法。
其他文献
获取蛋白质的结构和功能是生物学研究的重要目的之一,但是使用X光晶体衍射和核磁共振技术等实验手段测定蛋白质的三维结构,以及使用生物化学方法研究蛋白质的功能时效率不高,
自从2008年8月25日改版中国蓝以来,浙江卫视遵循集团提出的“导向金不换,收视硬道理”的指导方针,提出“浙江卫视中国蓝”的全新口号,放眼全国收视市场,开创国内省级卫视新格
近年来,人们在皮影戏保护方面展开了很多的研究与探索。为了改变皮影戏传统文化的现状,我们在皮影戏的数字保护方面做了研究与探索。针对于目前的仿真形式缺少对皮影戏整体综合
工程图矢量化是将纸介质工程图纸扫描输入计算机后,对所得的扫描图像加以分析、识别,最终重建其中的目标对象的过程。本论文研究的测井解释成果图是进行油气勘探开发时使用的工
搜索引擎是Internet迅猛发展的产物。它的出现使信息检索变得非常方便。但是,随着Internet以及随后出现的WWW技术的不断发展,导致网络所蕴涵的信息量急剧地膨胀。面对当前如
有限状态机用于对系统的动态行为建模,一般用状态图来可视化表示,是对反应式系统建模的一种强大工具。但是长期以来状态图仅仅作为软件设计过程中的动态视图,并没有作为一种开发
随着计算机技术和Internet的发展,基于网络的教学评价系统得到了长足的发展和应用。但是目前基于网络的教学评价系统采用的教学评价模型简单且已固化,不可替换,不仅维护性差,而且
近年来,Internet技术的快速发展,使得各种网络产品和网络服务层出不穷,网络用户数量和网络流量也越来越大,网络性能已经成为十分重要的问题。网络性能评价和测量技术也就变得越来
飞行器设计是一个由多门学科协同进行设计的过程。一方面各学科所涉及的知识领域不同,开发语言等编程习惯也不尽相同,各学科所开发的应用系统通常建立在不同的运行环境中,采用不
2004年4月~9月,在天津市大港区官港森林公园对花曲柳窄吉丁Agrilas planipennis的空间分布和垂直分布进行了调查研究,应用扩散系数(C)等6种指数法分析测定,确定了该虫在林地中