聚类算法在大规模高维数据集上的应用研究

被引量 : 0次 | 上传用户:cseivy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着云计算、物联网技术与社交网络的不断发展,各行各业积累的数据规模正在高速增长,由于这些海量数据中潜在的包含着大量有价值的信息,因此如何收集并有效的分析这些数据来获得潜在的信息是当前的研究热点。聚类分析作为数据挖掘领域重要的无监督学习方法,已经被广泛的应用于教育、科研以及互联网等领域。虽然现存的聚类算法在处理小规模低维数据时可以获得较高的聚类质量,但是在处理大规模高维数据时往往导致聚类的有效性大大降低。因此,探索一种适合大规模高维数据的聚类方案成为现今数据挖掘领域研究的重点与难点。本文旨在从数据规模约简的角度出发,以抽样技术为核心开展深入研究,全文的主要工作包括如下:(1)抽样技术已经被广泛的应用到大规模数据聚类分析中,为了克服在抽样过程中需要人工随机设置样本大小而导致抽取样本集质量不高的缺陷,本文在现有的统计最优样本大小算法的基础上设计一种自适应样本大小的抽样聚类算法。该算法在原有算法基础上加入了针对高维数据冗余特征的移除操作,从而使得改进后算法能有效的处理大规模高维数据。通过在多组UCI数据集上的实验可以看出,利用改进后算法确定的样本量来抽取样本集可以获得较高的质量。(2)虽然现存的可变网格划分密度偏差抽样聚类算法可以有效的应对大规模数据,但是该算法在处理大规模高维数据时需要对每一维进行处理,从而导致算法的执行时间随着维度的增加有较大的增幅。针对这一缺陷,本文提出了一种高效的密度偏差抽样聚类算法,该算法首先通过研究高维数据特征在聚类类簇空间形成的重要性来设计一种高效的高维数据特征选择方法,然后将该方法应用到可变网格划分密度偏差抽样聚类算法中,从而使得改进后的算法可以有效的处理大规模高维数据集。通过在多组人工数据集以及UCI标准数据集上实验验证了改进后算法的有效性。(3)为了进一步展示提出的高效密度偏差抽样算法的实用性,将该算法集成到开源的数据挖掘平台Weka中,并在真实的大规模高维数据集上对该算法进行进一步的实验。实验结果表明,相比较Weka中的其他抽样算法,该算法能够获得更高质量的样本集,并且在该样本集上可以获得较准确的聚类结果,从而实现了聚类算法在大规模高维数据集上的有效应用。
其他文献
中国苹果种植面积与产量均具世界首位,人们对果实品质的要求越来越高,提高果实品质将是21世纪苹果生产的主要任务。本研究连续两年对中国主产区8省市的32个苹果园叶片矿物营
我国专业学位研究生教育近年来在规模与内涵上都得到了跨越式的发展。但是,人们的传统观念、制度上的不合理设计以及专业学位研究生教育质量不高等导致专业学位研究生教育在
高碱准东煤反应活性好、储量大,预计储量达3900亿吨,但灰中Na2O含量高,直接燃烧时锅炉结渣沾污严重。此外,当前国家重点地区NOx排放值限定在50 mg/m3以内,但高碱准东煤燃烧NO
1907年12月至1909年7月,俄国军官、地理学家科兹洛夫率探险队两次到我国内蒙额济纳地区的黑水城进行“考察”,劫取了大量珍贵的西夏文、汉文文献和其他文物,由此黑水城文献惊现
空气污染越来越受到科学家的重视,并且已成为世界范围内的主要环境制约因素之一。它是中国严重的环境问题之一,主要归因于经济的快速增长、工业化和其他人为活动。目前,地基M
围绕黄河公司光伏发电数据中心建设目的、建设规划以及功能设计几个方面,系统的阐述了以通信为基础,数据应用为核心,通过人工智能、机器学习、中短期气象预测、新一代组件技
<正>青花釉里红系在瓷器坯胎上同时用钴料和铜红料彩绘。由于青花钴料和釉里红铜红料在烧制过程中所需要的还原气氛相差极大,故成瓷率不高而品位不菲。这块由民
报纸在各社会阶层起着很大的社会服务作用,一般来说,一个先进民族的报纸都具有漫长的历史,人们对世界第一份报纸的诞生具有不同的看法与争议。我国当代报纸具有140多年的历史
<正>新四军是中国共产党领导的一支与八路军齐名的英雄部队。它从1937年底开始组建,到1947年1月改编为华东野战军,英勇奋战在大江南北的华中、华东战场,为抗日战争和解放战争
会议
“十七年”蒙古语小说是当代蒙古族文学的重要组成部分。这时期的小说研究虽然较为活跃,但是从叙事学角度来进行系统研究的成果尚未出现。论文以“十七年”蒙古语小说叙事为