密度影响因子相关的网格聚类算法研究

被引量 : 0次 | 上传用户:ayelili
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是适应信息社会从海量数据中提取有价值信息的需要而产生的。聚类分析作为数据挖掘学科研究和应用的重要分支之一,它能从未被标记的数据中自动识别出具有一定相似性的数据组成的多个类。在各种聚类算法中,基于密度的算法能识别不同密度,任意形状的聚簇。但是密度聚类往往因为要设置全局参数,且参数不止一个,当遇到簇的密度变化差异很大时,聚类会遇到困难。而基于网格的聚类算法用网格代替对数据点的计算,提高了聚类处理速度,但是以牺牲精度为条件,网格划分的“粒度”大小影响着聚类的质量,粒度越小,聚类越精确,但是花费的代价越高;而粒度越大,聚类质量越粗糙。针对密度聚类和网格聚类的各自不足,本文考虑相邻网格的密度影响因子,提出了改进的聚类算法:基于网格密度影响因子的聚类算法(IFGDC)。算法的主要工作有:(1)通过划分数据空间将数据对象的聚类映射为网格单元的聚类,有效地降低了聚类操作的复杂度;(2)定义了基于网格相邻关系的一些概念,避免了传统的基于密度的算法中需要确定半径的不便;(3)提出了网格密度影响因子的概念,以便从高密度网格中确定核心网格;(4)并给出一种对簇边缘的边界点进行提取的方法,进一步提高了聚类准确性。最后,通过实验测试IFGDC聚类算法,验证了该算法的正确性和有效性。K-means聚类算法简单,成为聚类的经典算法。但是K-means聚类对参数敏感,依赖用户的经验选择聚类数目和初始聚类中心,易受噪声点干扰,而且算法结果依赖数据的输入次序。针对这些不足,本文提出了基于IFGDC的K-means改进算法。算法首先利用网格聚类的速度优势,对数据进行预处理,找到数据集的大致结构与分布,得到聚簇的类数k和代表各自簇的k个初始质心,然后利用这两个参数对数据集进行K-means聚类。实验结果表明,相比单纯地直接使用K均值聚类,改进的算法能提高参数k和初始质心选取的质量,减少对“噪音”的敏感性,算法结果确定,不依赖数据录入顺序,可以有效改进聚类效果。本文在最后对工作进行了总结,并对未来的工作进行了展望。
其他文献
《花间集》是中国晚唐和五代词的作品集,历来学界对它的研究主要集中在文学方面,语言学研究较少。本文从微观语义特征的角度对作品中的动词进行探究。首先提取动词的核心义,
目的:探究下调胰岛素受体底物-1 (IRS-1)表达对人乳头状甲状腺癌细胞TPC-1增殖和转移能力的作用及作用机制。方法:将细胞分为TPC-1组,sh-scram组和sh-IRS-1组,用sh RNA IRS-1
<正>一、把握分组的"均衡度"学生个体差异明显,在教学设计中要有意识地让每个学生都有表现的机会,能够担当小组中的各个"角色"。在安排合作小组时,应让各方面保持"均衡度",既
当前,永磁同步电机因为其高功率密度与转矩惯量比,结构简单,动态响应快等优点,在车辆、空调、冰箱、风扇等诸多领域得到了广泛应用。随着应用领域的不断拓宽,高性能的永磁同步电机控制策略成为了人们关注的焦点,作为当前主流的控制策,永磁同步电机矢量控制方法的关键在于电机转速与转子位置的获取,但是传统的机械传感器安装维护困难,且增加了系统成本和机械结构复杂度,降低了系统可靠性,因此永磁同步电机无位置传感器控制
为研究荞麦皮药枕对神经衰弱症候群的治疗作用 ,将 4 89例神经衰弱患者随机分为 3组进行观察 ,设单纯药物治疗为对照组 ;单纯使用荞麦皮药枕治疗为研究 1组 ;使用荞麦皮药枕
<正>经皮给药系统指通过皮肤表面给药,使药物进入体循环产生全身或局部疗效的给药系统,脂质体作为经皮给药中的一种很有发展前景的剂型,虽然有良好的皮肤载体的作用,但是药物
概念教学要经过感知、理解、巩固、应用、系统化等几个不同的阶段。我们研究的"差异教学"课堂教学模式之概念教学,其目的在于努力形成概念教学过程中相对固定的结构流程,最大
2022年冬奥会2015年7月31日,国际奥委会投票决定北京联合张家口获得2022年冬奥会举办权。此次冬奥会的申报成功“是继2008年北京奥运会和2010年上海世博会后,中国申办的又一
无论是对原文的理解还是对译文的再创作,译者主体性都发挥着重要作用。因此,译者是翻译活动中最活跃的因素。传统翻译理论认为原作者具有权威地位,而译者只能附属于原作者充
普朗斑岩型铜矿是格咱地区印支期斑岩型铜矿的典型代表,产于义敦构造-岩浆带南端的复式岩体。复式岩体为浅成-超浅成的中酸性斑(玢)岩体,可划分为3个侵入阶段,最早为石英闪长