论文部分内容阅读
聚类分析作为数据挖掘技术中一种应用广泛的重要分析方法,近年来相关领域的研究相当活跃.随着计算机技术的高速发展,知识与大量观察和实验数据的处理、归纳、分类相联系,波兰华沙理工大学Z.Pawlak教授等提出用粗集理论(Rough Set)研究不完整数据、不精确知识的表达、学习、归纳方法,为信息科学和认知科学提供了新的科学逻辑和研究方法.该文将聚类分析与粗集理论结合起来,针对提高聚类算法的有效性的需求,提出了一种将粗集理论应用于数据挖掘的新思路:利用粗集理论中决定属性重要性的思路来计算数据库中属性的权重,并将得到的权重用于聚类分析.该文的所做的研究工作和创新主要体现在以下几个方面:1.将粗集理论应用于聚类算法中权重的确定,提出了一种有所侧重的聚类权重确定方法,即RSW算法.它的优点在于不依赖于专家的打分,能够充分发掘和利用数据库中的隐含的知识,作为确定权重的依据.与统计方法确定权重相比其特色在于,它不是采取概率的方法来描述不确定性,而采用集合论的方法.利用粗集方法确定权重的方法的适用范围是聚类有较明确的目标,这个目标能够用决策属性明确的表达出来;条件属性与聚类的目的(决策属性)相关,并且对于聚类所起作用的大小有所差异.2.在RSW算法的基础上,与统计的方法相结合,提出了SRSW算法.与RSW算法相比,SRSW算法的特点在于它把粗集方法与统计方法结合起来,充分利用数据库中的统计信息.3.将RSW算法和SRSW算法应用于电信客户数据聚类分析的实践,验证了算法的有效性.