论文部分内容阅读
数据库中的知识发现(Knowledge Discovery in Databases,KDD)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘是KDD过程中的核心步骤,它的目的是运用特定的数据挖掘算法,从数据库中提取出用户感兴趣的知识,并以一定的方式表示出来,如树、表、规则和图等。作为主要的数据挖掘任务之一,聚类分析是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。这一过程的准则是最大化类内对象的相似性,同时最小化类间对象的相似性。本文重点研究了聚类分析中的若干关键技术和算法,同时探讨了它们在电信领域的应用可能。第一章对数据挖掘技术进行概述,主要讨论了知识发现的基本概念、数据挖掘的产生、发展以及数据挖掘算法可以实现的功能,主要包括:概念/类描述、分类和预测、聚类分析、频繁模式/关联规则挖掘、孤立点分析以及序列和时序分析等。同时,文中还给出了数据挖掘技术在电信领域的应用。最后阐述了本文研究的主要创新点和组织结构。在第二章中,首先介绍了聚类分析的基本概念,包括聚类的定义,聚类算法有效性的评价准则,以及对聚类分析算法的典型要求;然后讨论了几类主要的聚类分析算法以及它们各自的代表算法,包括基于划分的算法、基于层次的算法、基于密度的算法、基于网格的算法和基于模型的算法。第三章首先分析了聚类中心点初始化的必要性,以及现有的三类聚类中心点初始化算法;在此基础上,融合了基于网格的聚类算法和基于密度的聚类算法的基本思想,提出了基于复合近邻的聚类中心点初始化算法CNICC和基于方向指针的聚类中心点初始化算法DP。第四章重点研究了高维数据的子空间聚类算法。文中首先给出了高维数据的实例,并从三个方面分析了它们的特点,探讨了高维数据对传统的聚类算法所带来的影响;在此基础上,研究了现有的可交叠子空间聚类算法、不可交叠子空间聚类算法和其它类型的子空间聚类算法,分析了它们各自的优缺点。结合图论中的极大团理论,提出了基于极大团的高维子空间聚类算法;摒弃了传统的类Apriori搜索策略,提出了采用属性聚类的高维子空间聚类算法,在真实数据集和人工数据集上的实验结果证明了算法的有效性。第五章研究了孤立点检测的方法。首先介绍了现有的几类孤立点检测方法:基于统计的方法、基于深度的方法、基于偏差的方法、基于距离的方法和基于密度的方法,分别讨论了它们各自的优缺点。在此基础上,提出了两种在特征空间中完成孤立点检测问题的方法:基于双半径密度差异的孤立点检测算法和采用距离分布聚类的孤立点检测方法。前者通过考察数据空间内任一点的双邻域半径与邻域半径内的密度差异来有效识别孤立点,同时采用抽样技术进一步提高算法效率;后者将孤立点检测问题重定位在转换空间中,通过考察距离分布差异获取孤立点。实验结果证明了这两种方法对孤立点数据的实际检测效果。第六章主要对约束聚类问题进行了研究。以多种形式所表现的约束能够指导聚类过程,影响聚类结果。文中首先介绍了约束条件的不同类型,其次分析了约束条件给聚类过程所带来的收益及问题,指出了约束条件所引起的失真是影响聚类精度的根本原因。在此基础上,提出了最小化失真的约束聚类算法MDKM。以文中所提出的新算法为基础,第七章中给出了聚类分析技术在电信帐务数据上进行客户关系管理中的应用实例。第八章对论文进行了总结,介绍了本文的主要内容及主要贡献,并对进一步的研究和需要进行的完善进行了总结。