【摘 要】
:
聚类分析一直是数据挖掘和知识发现领域最重要的研究方向之一,聚类技术也得到了越来越多的关注,并且广泛应用于工程、生物医药、市场营销、商业智能与决策分析等诸多领域,切
论文部分内容阅读
聚类分析一直是数据挖掘和知识发现领域最重要的研究方向之一,聚类技术也得到了越来越多的关注,并且广泛应用于工程、生物医药、市场营销、商业智能与决策分析等诸多领域,切实为企业创造了巨大的价值。虽然聚类分析发展到如今,技术日益成熟,也产生了诸如K-Means、BIRCH、DBSCAN、SOM等非常经典的算法,但随着应用领域的更加广泛,面对的数据集类型也更加多变,分布也更加复杂,对聚类算法的要求也越来越严格。每种聚类算法都有一定的局限性,几乎没有任何一种聚类算法可以适合所有的情况。所以,一种尝试将不同聚类算法的优点融合起来以得到更优结果的思想于2002年被首次提出,并迅速成为研究热点,这就是聚类融合。如果更加通俗的来讲,聚类融合可以说是对聚类结果再进行聚类,所以,普通聚类算法是对数据集进行研究和处理,而聚类融合是对单一聚类的结果进行再聚类。由于聚类融合是一个新兴的研究方向,本身也还处在探索和发展阶段,尤其在聚类成员的产生和共识函数的设计两个层面,还存在许多问题,需要进一步研究完善。本文的主要工作是详细分析和研究了当前聚类和聚类融合领域的经典算法思想,并通过横纵向对比各个算法的优点和存在的问题,引入一种基于PCA的加权聚类融合算法。该算法利用PCA的思想产生聚类成员,较之K-Means等算法,该方法可以确定化初始聚类中心,避免了由于随机选取聚类中心而造成的结果不稳定和质量低等缺点。同时,在融合函数设计方面,将聚类成员的质量系数和K值系数作为权值分配的依据,从而加强质量较好的成员对结果的影响,降低干扰。最后,以某电信分公司的电信业务为背景,对客户的通话时长、短信总量、话费、上网等数据进行预处理,并使用改进的聚类融合算法对其进行客户细分。
其他文献
应急通信网络是在发生人为或自然灾害时搭建的通信系统,为救援行动提供安全可靠的通信服务。由于该网络应用的地理环境不可预期,而且可能会受到恶劣外界因素的干扰和破坏,这些将
面向服务的体系架构(Service Oriented Architecture, SOA)作为近年来IT业界的焦点,已经逐渐成为影响中国IT系统构建的主导思想。Web Service通过一系列的标准技术,已成为企业实
构建服装的虚拟模型在许多领域都有着非常广泛的应用,近年来许多服装重建新技术被提出来,其中大部分算法都需要服装的多视角视图,但是很多情况下服装的多视角视图是不具备的,
高性能计算HPC(High Performance Computing)是验证计算机系统处理能力和计算速度的一种有效手段。如今,高性能计算在国内外受到高度重视,其地位与作用已被广泛接受,它已成
随着3G技术的发展,越来越多的移动终端加入到了基于无线连接的Internet网络,而在传统固线连接的Internet网络中取得巨大成功的P2P技术与无线网络相结合,形成移动对等网(Mobile Pe
电容层析成像技术(Electrical Capacitance Tomography,ECT)可视为目前最为广泛研究的一种过程层析成像技术,该技术具有非侵入、非接触、成本低等优点,从原理上讲只要各相具有不
本课题从电能质量决策者的数据分析需求出发,针对传统的查询分析方式在电能质量数据分析过程中的局限性,提出了基于OLAP技术的电能质量智能信息系统多维分析解决方案,以更加
电子邮件给人们的生活和工作带来极大的便利,但大规模的垃圾邮件严重影响了邮件正常使用。垃圾邮件消耗大量网络资源,损害用户利益,还会被一些别有用心的人用来散播虚假消息,危害
现实世界是随着时间在发展变化的,时间是自然界的客观属性,是信息的重要组成部分。随着计算机科学和信息技术的不断发展,传统的DBMS已经无法实现对时态信息的处理,因此时态数
随着传感器技术、微电子系统、现代网络和无线通信技术的飞速发展和日益成熟,无线传感器网络(Wireless Sensor Network,WSN)逐渐被应用于国防军事、智能建筑、国家安全、环境