基于Map-Reduce并行计算模式的大量数据自动聚类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:w01225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一门无监督学习技术,聚类广泛应用在很多领域中,包括数据压缩,文件检索,人工智能,临床图像和微阵列分析等多方面。随着信息技术的飞速发展,在这些领域中积累的数据量将不可避免地跨过Peta级门槛,那么如何解决海量数据的存储并在其上进行相应数据挖掘以获得我们想获得的信息成为了当前面对的两个核心问题。海量数据存储问题通过分布式技术得以解决。因此海量数据挖掘成为了今年的热点问题。针对大量数据的聚类问题,我们提出了自己的算法并验证了算法的效果。  本文应用Map-Reduce分布式并行计算模式来实现对大量数据的自动聚类。Map-Reduce[37]模式的优点在于其本身可以由 Hadoop自动管理大型计算机集群并将分布式计算任务以传递计算而非一般传递数据的方式分配给多台机器,我们无需考虑计算调度问题,机器故障恢复和高效计算机之间通信等问题。文中算法优点在于通过少量对实验结果不敏感的参数来准确地确定海量数据中聚类后簇的个数和中心,同时为适应海量数据挖掘的需求,算法的复杂度限定在O(tn)(t为迭代次数),根据对正确率的不同需求可以通过增加固定参数大小的港式来获得更精确聚类结果。  本文的主要研究内容和研究成果归纳为以下几个方面:  首先,对文中所涉及的聚类算法方面的背景理论知识进行介绍,主要集中在确定簇的个数、初始中心选择、簇的内部聚类和分布式数据挖掘相关理论这四个方面。  其次,提出一种高效的自动聚类算法,通过确定初始中心集合、中心移动与融合三个步骤来实现自动聚类过程。根据算法在不同复杂数据分布情况下与K-MEANS、DBSACN、X-MEANS等算法的对比结果,我们证实了tnn-means算法在单机情况下的正确性和鲁棒性。  然后,基于Map-Reduce分布式并行计算模式,我们将tnn-means算法在分布式模式下实现并对该算法进行分析。通过对算法过程的说明,在理论上验证了单机情况下与分布式情况下的tnn-means算法的一致性。实验也验证了这一点,同时实验结果也充分说明了文中算法在分布式下的正确性和高效性。  最后,基于以上研究成果,我们总结了tnn-means算法优点和不足并提出了改进方案。
其他文献
个性化推荐技术是根据用户的个人喜好以及消费记录,推荐其喜爱的商品或者信息的一种技术,近年来逐渐成为研究的热点。它普遍应用于影视、电子商务、社交平台、网络电台、音乐
随着地理信息系统的应用越来越普遍,对空间数据库的设计和响应速率的要求也越来也高。地理信息系统的开发少不了空间数据库的支持,目前空间数据库的设计与建设主要是以Arc SD
生物特征识别技术近几年取得了飞速的发展,利用人体的生物特征来鉴别个人身份成为安全验证的重要方式。对人脸识别方法和技术的研究已经是国内外模式识别领域的研究热点。目
随着数字图像处理技术的发展,医学图像处理和分析技术在医学诊断领域发挥着越来越重要的作用,比如在对大脑图像进行分割时,可以利用机器学习的方法判断老年痴呆病发的可能性;
众所周知,随着网络技术的迅猛发展,网络上多媒体资源已越来越多。在音乐检索方面,单纯的文字输入检索已经不能满足用户的需求,尤其是网络上的音乐多媒体爆炸式增长的情况下。
随着互联网技术的飞速发展,不同领域网络信息的种类和组成形式愈加复杂,每个网站节点都具有复杂的分类体系结构,并且包含丰富的文本信息,如何将大量的文本信息标注到对应正确
人脸识别由于具有自然性和友好性的特点,因此成为生物特征识别领域中的一个热点研究问题。通过采用人脸识别技术,可以准确的识别出人的身份信息,进而保证信息安全。由于这个
服务计算(SOC)和服务构架(SOA)的兴起和发展,促使通过实现服务协同来构建虚拟组织(Vos, Virtual Organizations),成为革新Internet计算环境下应用软件系统的主流方式。然而,
本文研究了有时间间隔的事件的挖掘问题。假设原始数据库由事件序列集构成,其中事件发生在时间间隔内,我们的目的是挖掘出数据库中频繁发生的间隔事件间的时间关联规则。之所以
中医有“望、闻、问、切”四诊,是传统文化的精华,具有简单、方便、非侵入等优点,但比较主观,缺乏客观诊断标准。随着信息科技领域的不断发展,为中医的数字化、科学化、现代