论文部分内容阅读
在数字化时代、海量信息的今天,经常会涉及用分类的方法来处理问题。聚类分析就是对研究样品或指标进行分类的一种多元统计方法。聚类分析方法显示出良好的应用前景和应用价值。尤其是在SPSS中专门提供了聚类方法的过程,方便了应用者的分析计算工作,更有利于该方法的普及性应用。但是,在应用聚类方法时使用者面对那些不十分了解的资料,分类方法难以确定,再加之个别数据的干扰,这就可能会严重影响聚类方法应用的效果,造成个别类数据过分集中、数据结构扭曲等分类不客观、不真实的现象。为了提升聚类应用质量,本文试图通过对不同类型资料的分析,找出影响系统聚类和快速聚类应用质量的因素,为聚类分析方法的正确使用提供参考。 本文采用文献资料法、数理统计法、对比分析法及总结归纳法等研究方法。通过对不同例子的研究,分析聚类指标及数据因素对聚类结果的影响。剔除聚类的无关指标,可以有效改善聚类效果,同时还可以减少计算和分析的工作量,并且使结果展现更加简单直观。当发现存在共线性问题时,一般只需要在高度相关指标集中选择删除其中的若干指标即可。同时,为了减轻孤立点的影响,应用者需要进行多次的聚类尝试,并对每次聚类结果进行分析看是否能剔除孤立点。也可以通过密度法、局部距离法等方法进行检验,以获得理想分类结果。如果为了避免指标量纲对分类结果的影响,在相似性计算前应对数据进行标准化处理。