增强的软子空间聚类技术的研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:yanzi774
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域中的关键技术之一,在电子商务、信息过滤、生物信息学、模式识别等领域得到广泛应用。随着聚类在实际中的应用越来越广泛,也逐渐凸现出一些问题,特别是在处理大规模、高维数据上表现得尤为明显。目前,高维数据的聚类分析是当前研究的热点和难点。为了解决高维数据的聚类问题,R. Agrawal首次提出了子空间聚类的概念。概括起来子空间聚类分为两大类:硬子空间聚类和软子空间聚类。硬子空间聚类方法能识别不同类所在的精确子空间。与硬子空间聚类不同的是,软子空间聚类不需要为每类找到精确的子空间,而是给每类的特征赋予不同权值,利用这些权值来衡量每维特征在不同类中的贡献,亦即,软子空间聚类为每类找到一个模糊子空间。本论文在研究了众多软子空间聚类算法后,发现此类算法存在的一个明显的不足之处,例如,即几乎所有的软子空间聚类算法主要引入类内信息,如类内紧度,来构造目标函数。但是,可以预期,如果能融入更多的判别信息来构造子空间聚类算法,其聚类性能将会进一步增强。为此,本文探讨了增强的软子空间聚类技术。本文主要工作包括以下几个方面:第一部分是绪论部分,简要介绍了聚类分析技术的研究现状以及应用领域。第二部分介绍了高维数据聚类问题的研究背景和解决方法,并重点研究了子空间聚类算法,以及常用的三种子空间聚类算法。第三部分介绍两类具有代表性的软子空间聚类算法:模糊加权子空间聚类和熵加权子空间聚类是。第四部分针对传统模糊加权软子空间聚类仅利用类内信息之不足,通过引入类间鉴别信息,提出了增强的模糊加权软子空间聚类算法(EFWSSC)。提出的新方法首先在模糊子空间内结合类间分离度及类内紧度信息构造新的目标函数,继而推导出新的聚类学习规则并提出新算法。理论分析和基于不同数据集的实验表明提出的新算法显示出了良好的有效性,优于大多数已有的模糊加权子空间聚类算法。第五部分针对可能性聚类算法(PCM)在高维数据聚类时的不足,引入子空间聚类机制,提出了子空间可能性聚类算法(SPC)。SPC不但保留了PCM方法所具有的优点,同时也具有了经典子空间聚类技术的优点,即在高维数据上显示较好的适应性,且能有效地检测各类所处的子空间。通过在模拟数据集和UCI数据集上进行的仿真实验证明,SPC的有效性和较之于PCM算法的优点得到了验证。
其他文献
随着网络技术的发展,广大读者对数字图书馆的要求越来越高;数字图书馆服务提供方希望用尽可能少个资源提供尽可能丰富、灵活、安全、不间断的服务。基于读者和数字图书馆提供
随着互联网的快速发展,网络信息量不断增加,如何从这海量的信息中得到需要的信息就显得尤为困难。通用搜索引擎试图检索更多的网页,同时提供多样化的服务。但面对浩瀚的网页
基于移动IPv6的移动互联网是下一代网络的发展方向,为了保证网络安全,对接入用户实施认证、授权和计费(AAA)是一种有效的管理手段,然而,原有的Radius AAA标准协议已不能满足
近年来,点播与定制类业务给运营商和SP提供商带来巨大经济利润的同时也大大方便了用户的生活,用户越来越依赖这种予取予求的信息获取方式,与此同时对信息及时性、准确性等业
智能交通系统(ITS)随着信息技术、通信技术、模式识别和图像处理技术等学科的快速发展,在现实生活中得到极为广泛的应用,使交通管理的智能化、规范化得到了极大地提高。现有