基于Hadoop的应用可视化研究与实现

被引量 : 5次 | 上传用户:sxkcykart
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的极速发展,互联网产生的信息数据成爆炸式增长。互联网已经从信息匮乏迅速转入信息过于庞大而难以甄选有效信息的时代。文本信息作为传递信息的一种载体,依然是人们从互联网中获得信息的一种主要方式。如何从互联网海量文本信息中获取感兴趣的信息是大数据挖掘中的一项重要任务。文本信息挖掘被广泛应用于网络舆情、营销、商业推荐等各方面,研究文本信息挖掘技术具有广阔的市场应用前景。另外一方面,海量数据的涌现,使得传统的服务器已经无法承载海量数据的存储和运算,分布式系统已经成为当前处理海量数据的主流平台。因此,如何将传统的串行数据处理方法有效应用到分布式系统中也成为了分布式系统研究的一个主要问题。本文根据海量文本信息挖掘的核心问题,研究了基于Hadoop平台的文本聚类问题,以便于利用分布式平台提高文本聚类的效率和扩大文本聚类处理数据的容量。本文取得的主要成果有:1.本文根据Hadoop平台的特性,实现并改进了基于Mapreduce架构的分布式LDA主题模型并行算法,有效解决了单机LDA中处理数据容量受硬件资源限制的问题。实验结果表明,分布式LDA主题模型在处理海量数据时具有明显的时间优势。2.本文设计和实现了一个可视化的Hadoop集群管理平台,通过该平台简化了Hadoop集群的管理。同时,平台引入了用户权限控制模块,增强了平台的安全性。3.本文利用实验室的闲置计算机资源,搭建了由25台普通PC机构成的Hadoop的集群,并在该平台上验证和测试了可视化管理平台和并行LDA主题模型的算法。该系统可以稳定可靠地运行。
其他文献
随着信息时代的到来,集成电路成为当代电子信息技术的核心,引线框架作为生产集成电路的主要元件,在集成电路相关产品的制造中占有非常重要的地位。C194是Cu-Fe-P系铜合金中极具
农村社区型股份合作制是广东对全国农村集体经济产权制度改革的一个贡献。农村社区型股份合作制产权制度的演变及其趋势主要呈现为:在股权设置上,改革初期占主导地位的集体股
<正>营养价值:1.红菇含蛋白质、碳水化合物、矿物质、维生素B、维生素D、维生素E,并含有其他食品中稀少的尼克酸,微量元素铁、锌、硒、锰等。2.含有人必需的多种氨基酸等成分
姜寨一期墓地再探赵春青AsoneofthetypicalcemeteriesofearlyYangshaoCulture,thetperiodcemeteryofJiangzhaiinLintongCounty,ShaansiProvinceisaw...
大卫·米切尔(David Mitchell)的《云图》(Cloud Atlas)是千禧年来小说中的一部佳作。《云图》中的六个故事发生在六个不同的时代和地点,作者也采用了六种截然不同的写作风格
1.研究背景绝经后骨质疏松症骨折是绝经后骨质疏松症(Postmenopausal osteoporosis,PMOP)最具破坏性的结局。目前已为危害中老年妇女身体健康的严重疾病。如何有效的早期预测
随着近年来滑雪运动在中国悄然兴起,很多地区快速完成了滑雪场地的建设,国内滑雪人数呈跳跃式增长,冰雪旅游发展呈现出令人振奋的势头。天然的滑雪场已不能满足国内特别是南方地
当下,文化已成为衡量国家或地区发展的重要指标,成为国与国之间新的竞争领域,十七届六中全会正是在此背景下提出了建设社会主义文化强国这一重大发展战略。文化硬实力不仅是
1985年瑞典皇家学院将诺贝尔文学奖颁发给了克洛德·西蒙。得奖时,西蒙已孜孜不倦地在文学道路上探索了四十多年,本文所要研究的《农事诗》(1981)是其耗时最久的一部作品,以