基于Map-Reduce并行计算模式的大量数据自动聚类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：w01225

【摘要】

：

作为一门无监督学习技术,聚类广泛应用在很多领域中,包括数据压缩,文件检索,人工智能,临床图像和微阵列分析等多方面。随着信息技术的飞速发展,在这些领域中积累的数据量将不

【作者】

：

刘英群

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2011年期

【关键词】

：

并行计算模式自动聚类算法无监督学习数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为一门无监督学习技术,聚类广泛应用在很多领域中,包括数据压缩,文件检索,人工智能,临床图像和微阵列分析等多方面。随着信息技术的飞速发展,在这些领域中积累的数据量将不可避免地跨过Peta级门槛,那么如何解决海量数据的存储并在其上进行相应数据挖掘以获得我们想获得的信息成为了当前面对的两个核心问题。海量数据存储问题通过分布式技术得以解决。因此海量数据挖掘成为了今年的热点问题。针对大量数据的聚类问题,我们提出了自己的算法并验证了算法的效果。　　本文应用Map-Reduce分布式并行计算模式来实现对大量数据的自动聚类。Map-Reduce[37]模式的优点在于其本身可以由 Hadoop自动管理大型计算机集群并将分布式计算任务以传递计算而非一般传递数据的方式分配给多台机器,我们无需考虑计算调度问题,机器故障恢复和高效计算机之间通信等问题。文中算法优点在于通过少量对实验结果不敏感的参数来准确地确定海量数据中聚类后簇的个数和中心,同时为适应海量数据挖掘的需求,算法的复杂度限定在O(tn)(t为迭代次数),根据对正确率的不同需求可以通过增加固定参数大小的港式来获得更精确聚类结果。　　本文的主要研究内容和研究成果归纳为以下几个方面:　　首先,对文中所涉及的聚类算法方面的背景理论知识进行介绍,主要集中在确定簇的个数、初始中心选择、簇的内部聚类和分布式数据挖掘相关理论这四个方面。　　其次,提出一种高效的自动聚类算法,通过确定初始中心集合、中心移动与融合三个步骤来实现自动聚类过程。根据算法在不同复杂数据分布情况下与K-MEANS、DBSACN、X-MEANS等算法的对比结果,我们证实了tnn-means算法在单机情况下的正确性和鲁棒性。　　然后,基于Map-Reduce分布式并行计算模式,我们将tnn-means算法在分布式模式下实现并对该算法进行分析。通过对算法过程的说明,在理论上验证了单机情况下与分布式情况下的tnn-means算法的一致性。实验也验证了这一点,同时实验结果也充分说明了文中算法在分布式下的正确性和高效性。　　最后,基于以上研究成果,我们总结了tnn-means算法优点和不足并提出了改进方案。

其他文献

农产品电子商务语义推荐方法研究

个性化推荐技术是根据用户的个人喜好以及消费记录,推荐其喜爱的商品或者信息的一种技术,近年来逐渐成为研究的热点。它普遍应用于影视、电子商务、社交平台、网络电台、音乐

学位

电子商务语义模型个性化推荐本体用户模型

基于Arc SDE和SQL Server空间数据库的设计与优化方法研究

随着地理信息系统的应用越来越普遍,对空间数据库的设计和响应速率的要求也越来也高。地理信息系统的开发少不了空间数据库的支持,目前空间数据库的设计与建设主要是以Arc SD

学位

空间数据库空间数据索引空间聚类CLIQUE算法R-树

基于ATM视频的人脸图像预处理及识别算法

生物特征识别技术近几年取得了飞速的发展,利用人体的生物特征来鉴别个人身份成为安全验证的重要方式。对人脸识别方法和技术的研究已经是国内外模式识别领域的研究热点。目

学位

人脸图像预处理识别算法稀疏描述特征提取ATM视频

基于纹理分析的妇科显微图像的成分统计与分析

随着数字图像处理技术的发展,医学图像处理和分析技术在医学诊断领域发挥着越来越重要的作用,比如在对大脑图像进行分割时,可以利用机器学习的方法判断老年痴呆病发的可能性;

学位

白带常规检查医学显微图像图像分割纹理分析Snake模型清洁度

基于哼唱的音乐检索关键技术研究

众所周知,随着网络技术的迅猛发展,网络上多媒体资源已越来越多。在音乐检索方面,单纯的文字输入检索已经不能满足用户的需求,尤其是网络上的音乐多媒体爆炸式增长的情况下。

学位

音乐检索旋律匹配哼唱检索特征提取基音周期相似度计算

基于锚文本的领域语料库自动构建

随着互联网技术的飞速发展,不同领域网络信息的种类和组成形式愈加复杂,每个网站节点都具有复杂的分类体系结构,并且包含丰富的文本信息,如何将大量的文本信息标注到对应正确

学位

锚文本领域语料库自动构建人工标注网页结构共同子树

基于子空间的人脸识别方法研究

人脸识别由于具有自然性和友好性的特点,因此成为生物特征识别领域中的一个热点研究问题。通过采用人脸识别技术,可以准确的识别出人的身份信息,进而保证信息安全。由于这个

学位

子空间图像融合小波变换图像金字塔主元分析

可信自治式服务协同中柔性自维护机制研究

服务计算(SOC)和服务构架(SOA)的兴起和发展,促使通过实现服务协同来构建虚拟组织(Vos, Virtual Organizations),成为革新Internet计算环境下应用软件系统的主流方式。然而,

学位

契约履行服务协同虚拟组织政策柔性调度自维护

基于间隔事件的时间模式挖掘算法研究

本文研究了有时间间隔的事件的挖掘问题。假设原始数据库由事件序列集构成，其中事件发生在时间间隔内，我们的目的是挖掘出数据库中频繁发生的间隔事件间的时间关联规则。之所以

学位

间隔事件时间模式挖掘算法剪枝策略Apriori算法

呼吸气体信号分析与识别

中医有“望、闻、问、切”四诊,是传统文化的精华,具有简单、方便、非侵入等优点,但比较主观,缺乏客观诊断标准。随着信息科技领域的不断发展,为中医的数字化、科学化、现代

学位

呼吸诊断气体模式识别数据处理稀疏表示最优化模型

基于Map-Reduce并行计算模式的大量数据自动聚类算法研究

其他学术论文