基于分形维数的选择性聚类融合算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：dudulee

【摘要】

：

聚类是将数据样本划分成不同的类,使得在同一类内的数据对象尽可能相似,不同类之间的数据对象相似性尽可能小,它属于无监督的机器学习方法。聚类分析技术在数据挖掘、模式识

【作者】

：

吴晓璇

【出处】

：

合肥工业大学

【发表日期】

：

2015年01期

【关键词】

：

分形维数参照成员选择策略共协矩阵聚类融合选择性聚类融合云计算 Hadoop

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类是将数据样本划分成不同的类,使得在同一类内的数据对象尽可能相似,不同类之间的数据对象相似性尽可能小,它属于无监督的机器学习方法。聚类分析技术在数据挖掘、模式识别、统计等诸多领域有着广泛的应用前景,一直是机器学习领域的一个研究热点。针对特定数据,如何选择合适的聚类算法一直是研究的重点。聚类融合是对已产生的聚类结果,通过共识函数设计进行融合,以达到最大化已有聚类结果共享信息的目的,从而得到比单一聚类算法更加准确和稳定的挖掘结果。本文将聚类融合算法思想与分形数据挖掘技术相结合,提出了基于分形维数的聚类融合算法。在大数据的环境下,将上述算法扩展到云计算环境下实现。传统的聚类融合算法在第一步产生聚类成员之后,将所有的聚类成员参与融合,这样使得一些劣质的聚类结果参与了后面的融合,干扰了融合的准确性,降低了最终聚类结果的质量。在监督学习中,选择分类融合方法会得到更好的结果,从“选择分类融合”中获得启发,将选择性融合思想引入到聚类融合中,产生了选择性聚类融合算法(Clustering Ensemble Selection)。近几年的研究表明,选择性聚类融合方法能很好的提高聚类算法的鲁棒性等性能。本文在第一步聚类成员产生阶段引入分形数据挖掘技术,并将分形维数与投影聚类算法结合,提出了基于分形维数的选择性聚类融合算法,以提高聚类成员的准确性。本文的具体研究内容包括：(1)针对传统的K-means聚类算法适于发现球形数据集聚类,提出了一种基于分形维数的聚类融合算法,它将融合思想与单一分形聚类相结合,较之单一的分形聚类算法,可以提高聚类结果的准确性,可以发现任意形状且距离非邻近的聚类。(2)传统的聚类算法对于处理海量和高维数据面临着很多问题。本文研究了在云计算环境下,利用集群系统的并行计算能力,实现海量数据的聚类问题。为了提高聚类结果的准确性和稳定性,采用聚类融合的思想,利用分形聚类数据挖掘算法,可以实现任意形状的海量数据集聚类。(3)针对传统聚类融合算法不能消除劣质聚类成员的干扰,及聚类准确性不高等问题,提出了一种基于分形维数的选择性聚类融合算法。该算法通过基于分形维数的聚类算法实现增量式聚类,能够发现任意形状的聚类；再通过基于互信息计算权值的选择策略,选取部分优质聚类成员利用加权共协矩阵实现融合,获得最终的聚类结果。通过实验证实,与传统聚类融合算法相比,该算法提高了聚类质量,具有较好的扩展性。(4)针对高维数据聚类,提出了一种基于分形维数和投影的选择性聚类融合算法。该算法首先计算数据集的分形维数作为本质维数,利用投影聚类算法实现数据集的降维、聚类；进而根据选择出的最优参照成员及设计的选择策略选择部分优质的聚类成员；最后利用加权共协矩阵实现融合,获得最终聚类结果。通过在UCI数据集上的对比实验来验证该文算法对于处理高维数据聚类问题的有效性；相比于其它聚类算法,聚类结果的准确性得到提高。(5)根据以上的研究内容,结合项目需要,将选择性聚类融合算法应用到气象数据中,通过对气象数据挖掘,根据聚类结果进行气候区划,将我国进行温度带划分,共分为8个温度带,与其他研究学者的划分工作大体一致。

其他文献

色达

<正>~~

期刊

全结肠系膜切除术与传统根治术在Ⅲ期结肠癌手术中的应用对比

目的探讨全结肠系膜切除术(CME)与传统根治术治疗Ⅲ期结肠癌的临床疗效与安全性。方法回顾性分析2011年6月至2015年6月收治的113例Ⅲ期结肠癌患者的临床资料,根据手术方式分

期刊

结肠肿瘤结肠系膜全结肠系膜切除术剖腹术治疗结果

PE100级管材专用树脂UHXP 4806的生产与应用

在全密度聚乙烯装置上采用Unipol气相法工艺,以己烯-1为共聚单体生产PE100级管材专用树脂,牌号为UHXP4806。UHXP4806产品的熔体流动速率(I21.6)为4~8g/10min,密度为0.946~0.9

期刊

PE100聚乙烯UHXP 4806树脂生产

大学生健美操创编能力的教学所带来的无形经济效益

通过在本校大学生健美操课程教学与研究发现，以新课程理念为指导思想，突破传统的教学框架，开展创造性教学，体验健美操锻炼的实效性，有利于激发大学生的创造兴趣，能够提高大学生创编

期刊

大学生健美操创编能力经济效益

对丰县盐煤化工循环经济发展的探析

从国内市场环境和丰县县情出发,分析了发展盐煤化工循环经济的必要性,从经济、技术、产业链规划、实施项目等方面阐述了徐州市丰县发展绿色盐煤化工产业的可行性,并对加快丰

期刊

盐煤循环经济丰县

新时期城建档案人才队伍建设

在我国的城市建设与社会发展过程当中，城建档案发挥出了非常重要的作用。在当前的新时期下，我国的城市建设与社会发展依然飞速向前，为此我们必须要不断提升城建档案工作质量，这样

期刊

新时期城建档案人才队伍建设

基于基因表达数据的双聚类算法研究

基因芯片技术是近年来分子生物学领域的一大技术突破,它可以平行检测数以万计基因的表达水平,从而获得不同条件下基因组水平的基因表达数据。然而面对迅速增长的数据,如何借

学位

基因表达数据双聚类算法趋势一致双聚类最长公共子序列

企业薪酬管理质量研究初探

本文就如何从质量管理的角度来研究和评估企业薪酬管理水平进行了初步的文献整理和理论准备，就企业薪酬管理质量所涉及的相关基本定义及初步结论做较详细论述，并就下一步研究所

期刊

企业薪酬质量质量管理管理质量

基于无序多视影像的三维重建关键技术研究

利用多视二维影像来恢复场景的三维结构是摄影测量和计算机视觉领域内的一个热点研究课题。随着影像获取技术和三维重建技术的发展,可用于重建的有效影像数据源不断扩展,这使

学位

三维重建回路约束最大生成树贝叶斯网络置信传播并查集凝聚层次聚类分层重建批处理重建线性规划

基于分形维数的选择性聚类融合算法研究

其他学术论文