基于最小生成树的分布式分类模型研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:firelord128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘中的重要技术,广泛应用于电子商务,生物信息学,商业智能等领域。然而,随着科技的发展特别是互联网技术的普及,数据规模和数据关系的复杂性都大大增加,传统分类技术已无法有效处理,研究能够高效处理海量数据的分类方法成为人们关注的热点。   本文研究一种新型分类模型,在分类精确度和计算复杂度之间取得了较好的平衡。构建模型和分类过程采用MapReduce框架分布式实现,可以高效处理大规模数据。主要工作包括:   1.结合K最近邻方法(简称KNN)和基于聚类的分类方法,提出了一种基于最小生成树的新型分类算法。通过预先对训练集聚类降低了计算复杂度;通过提取类簇的子集,保存类的有效信息,获得较高分类准确度,从而取得精度和效率之间的平衡。   2.寻找大数据量训练集的最小生成树是构建分类模型的关键步骤之一。本文提出了一种基于MapReduce模型的分布式并行MST算法,为解决大规模数据分类问题提供了有效保证。   3.使用MapReduce框架分布式实现上述分类模型,并使用模型完成并行化的分类,高效处理大规模的数据。   我们进行了广泛的实验来验证模型,结果表明,相对于KNN,BFTree等常用算法本分类模型可以取得更高的精度;对大规模测试数据的实验表明本分类模型在保证精度的前提下可以大大提高分类效率。
其他文献
异构/融合网络是未来网络的发展趋势。接入技术的复杂性,承载业务的多样性,及用户需求的不断提高使得网络变得异常复杂。为了在复杂的异构网络上实现业务的统一提供,各种各样
随着航天测控技术的发展,各个空间组织的测控任务日益增多,伴随着日渐复杂和庞大的测控任务,不同空间组织之间的合作也在不断的加强。在这些空间组织之间,数据及资源的共享需
以现场总线与工业以太网技术为代表的控制网络技术是现代自动控制技术和信息网络技术相结合的产物,也是下一代自动化设备的标志性技术。EPA标准作为我国第一个工业实时以太网
子午工程是我国空间科学领域第一个国家重大科技基础设施项目,探空火箭是子午工程的一个重点项目之一。本次任务于2011年5月7日7时在海南探空火箭发射场发射成功,发射高度为1
传感器、遥感平台、数据通信等技术的不断进步使得遥感数据的获取趋于“三多”(多平台、多传感器、多角度)和“三高”(高空间分辨率、高光谱分辨率和高时间分辨率),也使得所
生物信息学是一门运用数学和计算机科学等手段对海量的生物信息进行分析和研究的交叉学科。序列比对是当前生物信息学一个研究的热点。它对于发现生物序列中的结构、功能和进
自因特网得到普及以来,网络已成为信息传播的重要工具。网络安全和隐私问题也逐渐成为人们关注的焦点。传统的加密技术只能保护通信数据的安全,但通信实体身份信息的私密性却
随着通信技术的发展,形成了多种网络并存的异构/融合环境,所承载的业务的类型和数量也在急剧的增长,因而在这种网络场景中,业务的端到端QoS(Quality of Service)的保证变得更
Java虚拟机本身是一个与平台相关的应用程序,而Java程序被编译成符合Java虚拟机规范的二进制代码,由Java虚拟机来解释执行这些二进制代码,或者对这些二进制代码进行优化并翻
本论文主要介绍了基于DSP线性拟合算法补偿式积分器的设计与实现。作者通过对传统模拟积分器电路模数转换及数字信号处理DSP算法等方面的深入调研,给出了实际积分电路的理论