基于Hadoop的分布式数据挖掘关键技术研究

被引量 : 5次 | 上传用户:shingohit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术在各个领域的深入发展,各种格式(图片、音乐、影视和文档等)的海量数据产生并存储在数据库中。从海量数据中挖掘有用的知识,并将这些知识应用于人类社会生产实践中,成为信息产业界的一个关键任务。但是数据过多也带来了一个问题:“数据丰富,信息匮乏”,从数据中发现知识的成本过高。需求推动技术的改变。分布式数据挖掘技术为这一问题提供了解决方案。实现分布式数据挖掘系统的一项关键步骤就是将传统的数据挖掘算法移植到分布式计算平台中。经过几十年的发展,分布式数据挖掘领域中涌现出各种各样的算法,它们都是面对不同的需求,完成不同的任务。而将这些算法进行改进,使之能够适应新的分布式环境,这是整个分布式数据挖掘的重要一步。。近几年,开源分布式系统Hadoop在国内外得到广泛的应用,经过多年的发展,也日渐成熟。它是实现分布式数据挖掘系统的一个绝佳平台。所以,本文针对数据挖掘的相关技术进行研究,对K-means++算法以及BP神经网络进行改进,使其有效应用于分布式系统中,并提供了Hadoop平台下的设计实现。本文的研工作包括以下两个方面:(1)K-means++算法根据概率对初始中心点进行选择,相对于随机选择的方法更加科学,算法的效率也较传统算法有了极大的提高。但是K-mean++算法本身的序列化特性导致其很难在分布式系统中实现,而且在计算距离时,忽略了不同属性对聚类结果的影响的差异。本文改进了K-mesn++算法的迭代过程,使其能够在Hadoop平台上实现,也给出了改进算法的MapReduce化伪码。并且在计算距离的过程中,引入属性权值的概念,使得重要的属性能够对结果产生更大的影响,提高聚类质量。实验证明了改进算法的有效性和并行化能力。(2)BP神经网络的权值和网络结构需要人为设定,而它们又对网络的分类结果有着至关重要的影响。取值不当会导致算法收敛很慢甚至不收敛,算法的结果也有可能只是局部最优解。本文使用遗传算法对网络结构和初值进行预训练,根据训练出来的数据构造网络。并对遗传算法中的染色体编码方式及选择算子进行改进,使得遗传算法与BP神经网络能够更好的结合,并加快收敛速度。最后,本文对优化算法进行MapReduce化实现,给出伪码。文后的多组对比实验也证明了优化算法的有效性和并行性。
其他文献
为了解浅埋煤层条件下综放工作面的矿压显现特征,以布尔台煤矿42104综放工作面为研究对象,采用数值模拟的研究方法对不同支护强度下工作面矿压显现特征进行对比分析。研究结
随着工农业生产的发展,人类有限的水资源受到日益严重的污染。污染来源于工业排放的污水,其中水体中的各种染料毒性大,色泽深,难降解严重危害了生态环境。同时农业使用的各种
地浸采矿方法可引起地下水环境的严重污染,文章对地下水污染过程及治理机理进行了阐明,针对地浸铀矿山的污染特点,提出了碱性中和清洗治理方法的设想,并对碱性中和清洗法治理
毛细管电泳是一种高效、快速和高灵敏的分离分析技术,已在药学和生命科学等领域得到广泛应用。由于影响毛细管电泳分离的因素较多且各因素间存在着复杂的交互作用,因而除需选
随着我国经济的快速发展,我国农田水利管理得到了人们的普遍重视,着力开发其中的防汛抗旱功能,可以促进我国农业生产的蓬勃发展.最近几年,国家高度重视防灾减灾工作,但同时我
采用气相色谱法测定乙醇胺还原氨化制乙二胺反应液中乙醇胺、乙二胺、哌嗪及二乙烯三胺的含量。选择手性色谱柱,程序升温及乙二醇内标物作为色谱条件,在此条件下各种物质能很好
从退耕还草、改善生态环境两方面阐述了西北地区发展草畜产业的依据,提出建设草业基地、畜牧业基地、有机农业基地是其发展之途径;对草畜产业发展过程中面临的问题进行了探讨
本文以固体高分子聚合物膜为固体电解质,运用化学还原方法和浸渍—还原方法制备了金属/聚合物复合膜电极,并以此作为气敏电极,组装了分别以电流方式和电位方式进行操作的电化学固
成人拥有正确的早期阅读观念,会有效促进幼儿早期阅读兴趣的培养和早期阅读行为习惯的养成。本研究基于人文视角,在呼和浩特市和乌兰察布市集宁区幼儿园和家庭范围内,对幼儿