基于空间约束的半监督子空间聚类算法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:ljyxq13571302523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为数据挖掘中的重要技术,具有广泛的应用领域。根据应用领域的不同,聚类算法被分为了四大类,其中包括划分方法、层次方法、基于网格的方法、基于密度的方法等。目前,如何处理大规模的高维数据集是聚类分析领域的热点和难点之一。由于高维数据具有稀疏性,传统的聚类算法在处理这类数据时往往不能获得理想的效果。子空间聚类算法正是针对高维数据集提出的一种新的聚类算法。它是传统聚类在高维数据空间中的一种扩展,其主要思想是将搜索局部化,在相关维中进行簇的搜索。代表性算法包括CLIOUE、PROCLUS、ORCLUS等。然而,随着真实数据集的维数发生变化,子空间的维选择也越来越困难,这也导致了上述的子空间聚类算法在分析真实高维数据集时效果往往不令人满意。为了更好的解决高维数据集引发的问题,本文引入半监督学习的方法,通过利用以往被其他子空间算法忽略的先验知识信息,提出了一种新的半监督子空间算法,该算法关注于表现形式为成对约束的先验知识,一方面利用成对约束在全维数据下的不一致性来确定子空间的搜索方向,来进行维的选择,大大降低了子空间维选择时的难度,同时也提高了子空间维选择的准确率;另一方面利用成对约束形成簇的中心点,很大程度上提高了聚类结果的准确度。另外,由于本算法利用了成对约束信息进行维选择,这在保持了子空间聚类算法优点的同时,也避免了其他算法主观地给定参数所具有的缺陷。本文将该算法同其他算法在人工数据集和真实数据集上进行了实验比较,由实验结果可以看出该算法比其他算法具有更高的准确度,对高维数据集的效果更为明显,说明该算法在处理高维数据集时的有效性和可行性。
其他文献
在信息化进程中企业建立了大量的信息系统,由于历史及技术原因这些信息系统形成一个个“信息孤岛”,信息资源整合显得尤为重要,其中的访问控制问题也不容忽视。本文的研究主
智能穿戴设备在养老医疗、电子健康方面正经历着全面多样化的发展,以无线体域网为技术基础的产品层出不穷,这将为未来的医疗健康开拓全新的方式。与此同时,体域网中存在的节点空
本文从电信推出全新客户品牌“我的e家”业务入手,提出了将Mondrian+JPivot应用到电信专题领域的解决方案,详细的介绍了“我的e家”专题分析系统的分析、设计以及实现过程,通过
本文主要研究了基于离群点挖掘的入侵检测方法,首先介绍了各种类型的离群点检测算法,重点分析了基于距离的算法和基于密度的算法的优缺点,从而引入了引力思想,并将其与本文改
20世纪是科学技术和人类文明取得空前发展的辉煌年代。以计算机为核心的现代信息处理和以数字化通信为特征的现代信息传输正在紧密地结合起来,将人类带入到未来崭新的信息时
全球定位系统(GPS,Global Position System)是新一代的精密卫星定位系统。面对当前定位导航产品广阔的市场以及应用前景,研究GPS定位系统具有很大的现实及长远意义。另外,研
在图像和视频中添加字幕、图标或其它标签有助于人们对于图像和视频的理解,是图像和视频处理的基本操作之一,在影视播放、远程教学、医学图像处理、数字摄影、版权保护以及互
随着互联网技术的不断发展,Web服务作为一种新兴的Web应用模式,近年来得到快速发展与应用,Web服务数量逐渐增多。同时由于用户对服务功能与服务质量(Quality of Service, QoS
图像信息形象生动,被人类广泛应用。随着网络技术的迅猛发展,图像信息可以快速方便地在互联网上传播。但由于网络的不安全性,这些信息在传输过程中可能丢失或被破坏,不法分子
大量克隆代码所导致的一系列问题已经成为大规模软件开发、维护的主要障碍之一。为了更有效的检测出大型软件中的克隆代码以解决其带来的各种问题,各种克隆代码的自动检测工