子空间聚类改进方法研究

被引量 : 0次 | 上传用户:shizijiazuren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为数据挖掘的核心任务,具有广泛的应用领域。研究人员根据不同应用提出了大量算法,其中包括划分方法、层次方法、基于网格的方法、基于密度的方法等。目前,大规模、高维数据集的聚类算法是聚类分析领域的热点和难点之一。由于高维数据的稀疏性,传统聚类算法在对高维数据聚类时不能获得理想效果。子空间聚类算法致力于解决传统聚类算法在对高维数据聚类时遇到的困难,是聚类算法的一个新的分支。高维数据的聚类是聚类算法能否适用于更多领域的关键,子空间聚类是实现高维数据聚类的有效途径,它是在高维数据空间中对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行,代表性算法包括CLIQUE、SUBCLU等。在真实数据集中随着数据维数的不同,子空间的密集程度也有所不同,而上述的子空间聚类算法在分析真实高维数据集时效果往往不令人满意,同时由于处理数据类型的单一性上述算法难以解决实际问题。为解决上述难题,本文通过对几种子空间聚类算法的分析研究,提出了一种基于k最相似聚类的子空间聚类算法-KSCSCfSubspace Clustering Base on K-most SimilarCluster)。算法使用一种新的聚类间相似度度量方法,通过保留k最相似聚类来确定子空间搜索方向,并将子空间聚类算法处理的数据类型扩展到连续型数据和分类型数据。算法针对以往子空间聚类算法采用全局密度阈值导致算法伸缩性不好以及聚类准确度不高的问题,在不同的子空间上采用不同的局部密度阈值,更加符合真实数据集的实际分布情况,在保持了子空间聚类算法优点的同时,避免了其他算法主观地给定参数所具有的缺陷。理论分析和基于不同数据集的实验证明,KSCSC算法能够有效地处理高维数据集和分类数据集聚类的问题,并且其聚类效果优于CLIQUE、SUBCLU和ROCK算法。
其他文献
生态学马克思主义的问题域和它的哲学基石是不同于传统马克思主义和西方马克思主义的,因此,可以把生态学马克思主义看成是有别于传统马克思主义和西方马克思主义哲学形态的一
目的:便秘是指粪便在结肠内停留时间过长,粪便变干、变硬、不易排出体外。主要表现为每周排便不超过2次;至少有25%的时间出现排便硬少、或排便困难、或排便不畅;并常有直肠胀
导航定位技术是现代科学技术中一门重要的技术学科,在航空、航天、航海和许多民用领域都得到了广泛的应用。随着科技的发展,导航测量系统向着模块化、综合化方向发展。近年来
我国的石油资源贫乏,国际原油的价格有持续不断上升的趋势,而火电厂锅炉在启、停和低负荷稳燃过程中,需要消耗大量的燃料油,因此实现锅炉的无油和少油点火技术,对节约用油有
在教学高中思想政治课必修①《经济生活》第五课“企业与劳动者”第一框题“公司的类型”时,不少学生不能正确理解“有限责任”“无限责任”“连带责任”和“无限连带责任”等
阻塞性睡眠呼吸暂停低通气综合征(Obstructive sleep apnea-hypopnea syndrome ,OSAHS)是指患者在每晚7小时睡眠过程中,呼吸暂停及低通气反复发作在30次以上,或睡眠呼吸暂停低
随着移动互联网的普及发展,各种APP软件相继产生,其中校园类APP作为新生事物,在APP的发展大环境中逐渐脱颖而出,形成其自身独特的发展态势,但在发展的同时也暴露了许多问题。
远程开放教育在中国经历函授大学、广播电视大学、开放大学,已经成为我国推进成人教育、全民教育、职业教育的主要教育体系。掌上智能移动设备应用于远程开放教育学习领域,成
针对传统汽车试验场可靠性试验技术规范存在的问题,提出一种与用户用途关联的汽车可靠性试验方法,与现行的试验方法相比,该方法能把用户对车辆的实际使用工况与试验场强化试
离散需求环境下的生产批量问题是近年来制造企业在生产管理上面临的重要和现实的问题。目前,在生产实际中,MRP系统是通过计算按时间分段的总需求和净需求,并以间断的时间序列