基于云计算的海量数据分类算法研究

被引量 : 0次 | 上传用户:sduan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来和互联网的迅猛发展,人类可以采集利用的数据信息迅猛增长,数据量已达到TB级甚至PB级。而传统的数据挖掘技术已经难以适应飞速发展的大数据时代。因此,如何用更快速、更有效的方法从大规模数据中筛选出有技术含量、运用率高的信息成为数据挖掘技术必须面对的棘手问题。云计算是一种用于实现并行计算的模型,它可以将大规模数据的存储和计算能力均匀的分散到由若干机器构成的集群中。集群可以由许多的廉价机器来搭建,在很大程度上降低成本。云计算这种强大的存储和计算能力以及廉价的成本优势,使数据挖掘所面临的难题得以解决。Hadoop作为当前主流的开源云计算平台,适用于处理单机无法处理的大规模数据集。由于系统本身能够对外屏蔽一些内部细节,使得程序员编写和运行用于处理海量数据的应用程序变得更加容易。本论文针对数据挖掘相关分类算法进行了深入研究,并提出将分类算法MapReduce化的方案,主要研究工作如下。1.针对海量数据预处理的瓶颈问题,提出了一种基于MapReduce编程模型的连续属性离散化算法,并给出了算法设计的方法和策略。实验结果表明该算法具有较高的执行效率,适合用于海量数据的快速离散化处理。2.根据大规模数据集在单机上训练和测试时间过长的问题,通过详细分析朴素贝叶斯分类算法的原理及可并行化点,在Hadoop分布式平台下设计并实现了一种并行朴素贝叶斯的数据分类算法。大量实验结果表明该并行化算法,具有较高的执行效率和可扩展性。3.考虑到集成分类方法中各个基分类器对集成结果所做的贡献不同,为各个基分类器赋予权值来表征其对集成分类的重要程度。在权值的确定问题上,使用智能差分进化算法自适应的优化各基分类器的权值。基于此,提出了一种基于差分进化算法的加权投票集成分类算法。实验数据表明,该算法不仅提高了集成分类的效果,还具有较强的泛化能力。
其他文献
<正> 我厂裸线车间是专为漆包线车间提供裸线的。漆包线用的裸线要求柔软,以利绕制线圈时容易成型。过去,我们拉制中、小规格漆包线用的裸线,由于漆包机上没有专设退火装置,
<正> 动物皮是最丰富的胶原资源,长期以来主要作为制革工业的基本原料。随着分子生物学、遗传学、材料学、组织工程等学科的迅速发展,胶原的性质和生物学功能逐步被深入认识
会议
在狭隘的"正统-异端"眼界下,鲁迅对中国精神文化传统的继承、发展与革新的思想,长期以来被遮蔽了。尤其鲁迅在新文化运动中对传统文化的批判性反思,至今仍然被简单定性为文化
我国的物流行业正处在结构转变阶段,传统的物流产业结构已经不能满足社会发展的需求,正朝着信息化、网络化、智能化的方向发展。通信技术作为物流领域各种应用的支撑技术,能
我国是世界上最大的蛋品生产国和消费国,连续20多年保持世界第一产蛋大国的地位。但是由于生产工艺落后、技术含量较低,我国禽蛋产品市场竞争力不强,蛋制品在质量安全、运输
随着高等教育的改革和发展,以及我国高校毕业生就业制度的转变,提高大学生对社会环境的了解,提高自身的就业能力,正确规划自己的职业生涯有着重要的作用和意义。因此,高校如何开展
玉米是世界范围内种植面积最广的作物之一。玉米在早春播种时常会遭遇低温逆境,从而严重影响种子萌发和幼苗生长,最终影响产量。因此,提高玉米的耐寒性具有重要意义。水杨酸(
基于当下中国美术的色彩教育在高中阶段方法单一,学生的审美素养、实践能力及艺术潜能没有得到很好的发掘,本人提出高中美术色彩教学-以水粉画材质与探索这一论题。并通过查阅
随着我国当前信息化技术的不断发展,信息化已经朝着我国的各个产业相互渗透,不仅有利于提高工作效率,还有利于保证最终工作的准确性,例如在财务会计工作中,应用信息化技术的
这篇翻译报告主要对《学驾车的十个简单步骤》的第五,第六步骤中的翻译进行了总结和分析。《学驾车的十个简单步骤》通过一个独特的十个步骤来帮助驾驶学员准备实际的驾驶操作