云计算支持下的数据挖掘算法及其应用

来源 :广州大学 | 被引量 : 7次 | 上传用户:jihuoxiazai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining,DM),一直是数据库和人工智能领域持续的热点研究问题。经过二十余年的发展,数据挖掘在各个领域的应用已经非常广泛。但是随着计算机技术以及网络技术的发展,信息量、数据量越来越庞大,这些大量的信息在帮助人们更好的生活工作的同时,也加大了人们从中发现有效知识的难度。而且这些海量数据也并非简单整齐地排列分布在数量有限的设备上,它们往往是以各种复杂、异构的模式,充满信息噪声的存在于整个网络之中,要处理并分析这些数据,所要求的计算能力往往很难在限定的时间范围内达到要求,甚至连传统的分布式计算机集群也未必能满足。云计算的概念天然地为海量数据的存储、分析及处理提供了现实可行性。本文首先介绍、分析了云存储、云计算平台的系统架构,研究了其运行机制。而后基于传统的数据挖掘算法,提出了将经典数据挖掘算法Apriori、K-Means云计算化的一个方案,并基于Map/Reduce框架构建了Apriori、K-Means云计算化的系统模型。最后在Hadoop分布式集群中以海量数据对Map/Reduce化后的Apriori及K-Means算法进行了实验,测试了算法的性能及效率,探讨了对于海量数据挖掘耗时长、效率低的问题,取得了一定的成果。
其他文献
对外汉语教学的诸多难点当中,“离合词”这一语言点可以说是较突出的。“离合词”要根据交际需求的不同来决定使用“合”的形式或者“离”的形式,不仅让很多外国学生在汉语学习
克拉玛依八区克下组油藏属断层遮挡-岩性油藏。目前,油藏己进入高含水期开发阶段,存在水井注不够;油井受效差;含水上升快;产量递减较大;剖面动用程度低且呈下降;井网不完善;剩余油可
商业银行开展投资银行业务这一课题理论界早有研究,但纷繁变化的经济金融形势和发展中的现实问题,使得这一问题迄今为止仍是学术和实践领域的热点话题。特别是在目前我国银行业
文章对两汉三朝在经营西域过程中的经验和教训做了探讨。认为决定经营成败的首要因素是统治者对西域地位重要性的认识;在具体政策中则因俗而治、屯田、对动乱镇压是否果断、
英语科技论文写作是研究生进行国际学术交流必备的英语应用能力之一。本研究旨在探索适合高学位阶段非英语专业研究生英语科技论文写作探究式学习体系,以全面有效地提高研究
民主代表着社会文明的发展程度,在现代社会,民主属于政治文明,民主政治建设属于政治文明建设。当代中国的民主是社会主义本质在国家政治层面上的体现。中国的农民人数众多,是
在梳理政府购买公共服务的法律法规与规章基础上,对政府购买公共服务存在的法律缺陷进行系统分析,并从修订相关法律、完善信息公开制度、健全监管问责制度、创新评估审核制度
一次调频是确保电力系统安全运行的主要措施之一,合理投入参与一次调频的水电机组容重比,可确保电网频率的快速恢复,降低事故扩大的可能性。为研究水电机组参与一次调频的特
本文分析了青少年社会化过程中存在的问题,阐述了家庭对青少年社会化过程的重要影响,提出了发挥家庭在青少年社会化过程中的五种特殊作用。即要发挥家庭的引导示范作用、鼓励
吉林省是中国重要的粮食生产基地,改革开放的30多年来,吉林省的农业发展取得了巨大的进步,但是吉林省的农业生产方式比较落后、科技含量比较低下、农民的生态意识比较淡薄,更