论文部分内容阅读
由于计算机数据采集工具及关系数据库技术的发展,目前各个行业都存储了大量的数据。传统的数据分析手段难以应付大量的数据,从而导致越来越严重的数据灾难,数据挖掘技术的发展为解决这一问题提供了有效途径。数据挖掘(Data Mining),也称数据库的知识发现(Knowledge Discovery in database),是指从大量的原始数据中挖掘出隐含的、有用的、尚未发现的知识和信息。与传统的统计、总结方法相比,数据挖掘技术涉及到多个学科,汇集了人工智能、模式识别、数据库、机器学习以及管理信息系统等学科的成果。数据挖掘是一个新兴的边缘学科,其应用领域非常广泛,并具有良好的应用前景。聚类分析是数据挖掘的重要组成部分。所谓聚类,是将一个数据单位的集合(数据源)分割成几个称为簇或类别的子集。聚类分析依据的原则是使同一聚簇中的对象具有尽可能大的相似性,而不同聚簇中的对象具有尽可能大的相异性。聚类分析主要解决的问题是如何在没有先验知识的前提下,实现满足这种要求的聚簇的集合。本文主要工作包括:(1)首先介绍了什么是数据挖掘,包括数据挖掘的产生背景和定义,然后介绍了目前国内外数据挖掘中研究的一部分重要内容的概况,包括关联规则、数据综合和概括、数据分类、数据聚类等,最后介绍了数据挖掘在研究和应用中所面临的挑战,正是这些挑战推动了数据挖掘研究的进一步发展。(2)对现有的各种聚类分析算法的对比性研究。(3)基于划分的聚类方法的改进。基于划分的方法是聚类分析中较为主要的方法之一,但是由于它对于先验知识的依赖较强,尤其是需要预先指定聚类分析的类别数目,给该方法的应用带来了障碍。本文提出了对基于划分的方法的改进方法,它不但避免了需要用户给出难以确定的参数的尴尬局面,而且可以发现任意形状的簇,是一个非常有优势有前景的算法。最后详细介绍了该算法的具体实现,并把它应用到一个实例中。