应用于大规模高维数据的稀疏化近邻传播聚类算法

来源 :南京航空航天大学 | 被引量 : 1次 | 上传用户:yiran87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化与互联网技术的快速发展,各个行业所产生的数据规模不断增大,其复杂性也不断增加。一般来说,大规模高维数据主要包含两个特性,第一,数据量大且增长速度快;第二,数据维度高,冗余特征多。传统的数据挖掘和处理算法往往不尽如人意,因此,如何高效地从大规模高维数据中挖掘出有价值的信息,成为当下的研究热点。近邻传播聚类算法(AP算法)是一种基于信息传递的聚类算法,具有不用事先指定聚类数目、聚类效果稳定等优点。但当数据复杂性增强时,AP算法的复杂度也增长的十分明显。本文主要针对关于AP算法的改进,保留AP算法的优势,并实现其在大规模高维数据中的推广。在本论文中,针对数据规模大这一特性,提出基于核心点提取的稀疏化快速近邻传播聚类算法,简称CFAP算法。首先,利用基于高斯核相似性的核心点提取方法提取核心集,实现对大数据规模的缩减;然后,借鉴K-NN分类算法的判别思想,结合AP算法基于信息传递的这一特性,利用样本只和最近的K个样本传递信息,对核心集的相似度矩阵实现稀疏化;最后,将CFAP算法与HAP算法,AP算法在数据集上进行实验,通过实验分析对比,验证了CFAP算法在时间上的高效性及聚类结果的有效性。另一方面,针对数据维度高这一特性,本论文提出将CFAP算法应用在SAS-Clustering算法框架下,实现CFAP算法在高维数据上的推广。首先,针对SAS-Clustering算法框架本身的不足,提出使用Golden-Section黄金分割搜索法替代Grid-Search网格搜索法,极大的提高了对最佳特征集合S的搜索效率;其次,针对K-means算法聚类效果不稳定这一缺陷,使用CFAP算法替代原本该框架下的K-means算法,提出SAS-CFAP算法;最后,通过实验验证了SAS-CFAP算法的鲁棒性和可行性。
其他文献
近年来,土压平衡盾构因施工速度快、对环境影响小等优点,被广泛应用于城市地铁隧道施工中。土压平衡盾构施工过程的关键是在压力舱内将刀盘开挖下来的土体调整为“塑性流动状态”。然而,砂性地层渗透系数高、摩擦力大、流动性差,很难形成“塑性流动状态”,所以通常使用膨润土泥浆进行改良。在现场盾构施工过程中,膨润土泥浆功能单一,膨化池占用面积大、膨化耗时长,常出现膨化时间不够而导致其粘度不达标,进而影响盾构掘进效
作为微信的重要组成部分,微信公众号日渐成为受众接受信息的重要来源,各类体育媒体凭借微信多媒体兼容的传播优势向受众提供免费的体育信息推送服务。本文旨在将不同类型体育
寓惠时期,苏轼在贫穷潦倒的磨难之中,开始了全面的人生反思,不断进行着自我精神的超越,从哲理的高度来思考人生的价值和意义,并把现实世界当作审美对象,达到人格的理想境界,
为获得深部岩体的变形模量,在真三轴试验机上,对中等尺寸大理岩试样进行不同侧压下的变形试验,重点对同一试样进行多个等侧压和不等侧压的对比试验。试验表明:(1)大理岩的变形模量
<正>胃癌前期病变是指与胃癌发生有密切联系的良性病变,包括慢性萎缩性胃炎, 胃黏膜肠上皮化生,胃腺瘤和非典型增生或上皮内瘤变。胃癌前期病变的正确诊断对临床治疗和制定严
会议
抑郁是一种年龄分布广,发生频率高,治愈难度大,复发几率强的人类负担性精神疾病。随着社会的高速发展,人们的生活节奏明显加快,生活方式变得日益复杂,全社会的竞争压力也大幅增加,普通人患抑郁的风险也随之增大。近年来,抑郁的低龄化趋向明显。中学生处于由青少年期向成年期转变的过渡阶段,在这一成长过程中需要面临的挑战和背负的压力都十分艰巨,致使中学生成为了抑郁的高发性群体。值得反思的是,大量抑郁青少年并没有得
私家侦探属于比较特殊的行业,指的是“民间(非官方)从事普通案件调查的机构和个人”。与公安机关、检察机关、国家安全机关等具有侦查职能的机构相比有着自己鲜明的特点:与国