聚类分析中若干关键技术及其在电信领域的应用研究

被引量 : 62次 | 上传用户:lanses
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库中的知识发现(Knowledge Discovery in Databases,KDD)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘是KDD过程中的核心步骤,它的目的是运用特定的数据挖掘算法,从数据库中提取出用户感兴趣的知识,并以一定的方式表示出来,如树、表、规则和图等。作为主要的数据挖掘任务之一,聚类分析是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。这一过程的准则是最大化类内对象的相似性,同时最小化类间对象的相似性。本文重点研究了聚类分析中的若干关键技术和算法,同时探讨了它们在电信领域的应用可能。第一章对数据挖掘技术进行概述,主要讨论了知识发现的基本概念、数据挖掘的产生、发展以及数据挖掘算法可以实现的功能,主要包括:概念/类描述、分类和预测、聚类分析、频繁模式/关联规则挖掘、孤立点分析以及序列和时序分析等。同时,文中还给出了数据挖掘技术在电信领域的应用。最后阐述了本文研究的主要创新点和组织结构。在第二章中,首先介绍了聚类分析的基本概念,包括聚类的定义,聚类算法有效性的评价准则,以及对聚类分析算法的典型要求;然后讨论了几类主要的聚类分析算法以及它们各自的代表算法,包括基于划分的算法、基于层次的算法、基于密度的算法、基于网格的算法和基于模型的算法。第三章首先分析了聚类中心点初始化的必要性,以及现有的三类聚类中心点初始化算法;在此基础上,融合了基于网格的聚类算法和基于密度的聚类算法的基本思想,提出了基于复合近邻的聚类中心点初始化算法CNICC和基于方向指针的聚类中心点初始化算法DP。第四章重点研究了高维数据的子空间聚类算法。文中首先给出了高维数据的实例,并从三个方面分析了它们的特点,探讨了高维数据对传统的聚类算法所带来的影响;在此基础上,研究了现有的可交叠子空间聚类算法、不可交叠子空间聚类算法和其它类型的子空间聚类算法,分析了它们各自的优缺点。结合图论中的极大团理论,提出了基于极大团的高维子空间聚类算法;摒弃了传统的类Apriori搜索策略,提出了采用属性聚类的高维子空间聚类算法,在真实数据集和人工数据集上的实验结果证明了算法的有效性。第五章研究了孤立点检测的方法。首先介绍了现有的几类孤立点检测方法:基于统计的方法、基于深度的方法、基于偏差的方法、基于距离的方法和基于密度的方法,分别讨论了它们各自的优缺点。在此基础上,提出了两种在特征空间中完成孤立点检测问题的方法:基于双半径密度差异的孤立点检测算法和采用距离分布聚类的孤立点检测方法。前者通过考察数据空间内任一点的双邻域半径与邻域半径内的密度差异来有效识别孤立点,同时采用抽样技术进一步提高算法效率;后者将孤立点检测问题重定位在转换空间中,通过考察距离分布差异获取孤立点。实验结果证明了这两种方法对孤立点数据的实际检测效果。第六章主要对约束聚类问题进行了研究。以多种形式所表现的约束能够指导聚类过程,影响聚类结果。文中首先介绍了约束条件的不同类型,其次分析了约束条件给聚类过程所带来的收益及问题,指出了约束条件所引起的失真是影响聚类精度的根本原因。在此基础上,提出了最小化失真的约束聚类算法MDKM。以文中所提出的新算法为基础,第七章中给出了聚类分析技术在电信帐务数据上进行客户关系管理中的应用实例。第八章对论文进行了总结,介绍了本文的主要内容及主要贡献,并对进一步的研究和需要进行的完善进行了总结。
其他文献
目前青少年身体素质不断下滑的现象引起了全社会的广泛关注,学校体育教学不仅是提高学生身体素质的手段之一,而且也是奠定学生终生体育锻炼的基石,对于学生身体素质下降有着
介绍济南站风雨棚设计过程,重点介绍钢结构方案比选、结构计算模型及参数、施工组织方案。
黄河北矿区阳谷—茌平区位于聊城市境内,本区含煤面积2239.28km2。-1500m以浅资源/储量面积932.4km2,共获得煤炭资源/储量8534.6648Mt。其资源整装、储量丰富,煤质较好。文章
苹果蠹蛾是国际关注的苹果有害生物之一,严重威胁着中国水果主产区果业的安全,防控形势十分严峻。通过不断探索和借鉴更安全环保的苹果蠹蛾监测与防控技术,能有效地防止苹果
合理的矿业工业场地布置可为矿井文明生产创造良好的条件,使场区管理井然有序,交通秩序顺畅。文章通过对塔拉壕矿井工业场地总平面布置的介绍,分析和总结了矿井工业场地在复
在现代政治实践中,执政伦理是政治伦理向行政伦理转化的关键环节,执政伦理同政治伦理与行政伦理有着密切的关系,既存在着不可分割的联系,又有着显著的区别。在西方政党制度中
本文阐述了如何从管理体系文件的编制、评审、批准、发放、使用、更改、标识、回收和作废等全过程,对实验室文件进行控制,并指出了文件控制中应注意的问题。
从传统文学的评价标准和优于其他网络小说的特别之处两个方面来看,《鬼吹灯》畅销的原因可以归结为文学价值和艺术价值被人肯定,此外《鬼吹灯》把握了大众的普遍口味,迎合了
本文分析了会计电算化和会计信息化的主要特点,总结了会计电算化的贡献,对当前会计电算化存在的主要问题进行了研究,进而分析了会计的电算化向会计的信息化过渡的可行性与必