基于Hadoop的网络验证平台的研究

被引量 : 6次 | 上传用户:wuyegongjue1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算是2007年底正式推出的一个崭新的概念,它可以说是一个历史性的创新,意味着计算服务也可以作为一种商品进行买卖,就像煤气、水电一样,取用方便,费用低廉,而区别只是在于它是通过互联网传输的。现今为止,Google、IBM、亚马逊等IT商业巨头都提拱了自己的云计算平台,并把云计算作为其未来发展的最主要战略之一。因此,云计算的研究不但紧跟业界技术发展的趋势,同时还具有较高的应用价值。在云计算系统的后台,提拱了成千上万的服务器,如何很好地组织如此巨大的服务器集群是云计算系统稳定运行重要问题。一个合理的网络拓扑结构不仅能够提高网络的性能,而且能够保证网络的稳定性,使网络在部分节点或链路故障或拥挤堵塞时也能正常工作。云计算系统后端的网络拓扑特性与一般的网络拓扑不同,因此我们应该重新考虑和研究。数据是信息的携带者,而信息是数据的含义,通常情况下认为数据是信息系统的基本。使用计算机来处理数据,提取信息是信息系统的基本需求。在现今高度信息化的社会里,Web可以说是最大的信息系统,其数据具有海量、多样、异构、动态变化等基本特征。如何实现快速有效地从这些数据中抽取出对企业有益的信息已成为程序员在进行软件开发过程中碰到的最重要的工作。基于这个出发点,本文在分析现有分布式存储和分布式计算等关键技术基础上,结合对Hadoop的集群技术的研究以及自身的业务需求和实际软硬件实力,提出了一种基于Hadoop的海量数据处理模型,并从数据结构设计、程序流程组织和编程技术的使用等几个方面来介绍这个模型的开发方法,最后将该模型应用于网络验证平台的web日志数据处理过程中。它允许程序员可以没有并发处理或者分布式系统的经验,就能够处理超大规模的分布式系统的资源。该模型还可以应用在诸如非文本图片存储、搜索引擎、网格计算等需要处理大数据量的网络应用中。本课题的特点是将研究的模型与实际业务应用相结合,利用前沿的分布式框架技术来很好地满足项目的需求,并将模型部署到实例当中,用实验结果来检验模型的实用价值,比如高效率、低成本、可拓展性和易维护性等。在与原来的预处理系统相融合的基础上,我们还对初级的模型进行了性能的优化,主要包括:MapReduce作业调度的优化,排序算法的优化。集群系统的容错机制的优化等。
其他文献
本文以语言使用和语言态度为研究领域,选定塔城市区达斡尔族为研究对象,在吸收和借鉴前人研究成果的基础上,采用文献研究法、田野调研法、理论阐释法及统计学方法,依据实地调
时间问题是西方哲学最艰深的也是最重要的问题之一 ,从柏拉图到胡塞尔相继出现了实体论时间观、关系论时间观、个人主观时间观、先验时间观和内在时间意识 ,胡塞尔上承奥古斯
文中详细分析了小块林地立木水平和区域水平森林总体2个多功能森林经营体系的概念、产生、发展以及区别;根据我国实际情况提出,坚持分类经营的思想,大部分小片林地采用以主导
<正>《毕升》是人教版《中国历史》七年级下册13课72页的一幅插图。这是1959年王凤祚根据历史记载进行想象而创作的塑像,现陈列在中国历史博物馆。毕升头戴软脚幞头,身穿圆领
期刊
宋代隐括体属于二次创作,与原创的宋词在创作目的、创作原则和创作方法上都有所不同。文章以两首隐括体宋词为例,定义、对比、分析、归纳出隐括体的主要创作方法:增补新字、
我国上市公司存在着较多利润操纵行为,日益严重的利润操纵行为已成为我国资本市场健康发展的绊脚石。本文对上市公司操纵利润的动机以及常见的方法予以了分析,以求为广大投资
线索就是联系。历史线索就是历史的联系。历史过程是第一位的,线索寓于过程之中。基本线索是历史过程的内在联系,会抓会用历史线索,尤其是基本线索,是历史教师十分重要的教学
自工业革命以来,随着西欧资本主义的发展,出现了经济生活矛盾重重、政治秩序极度混乱、社会贫富严重分化的局面,人类面临着人与自然、人与社会、人与人之间的各种冲突,并由此
亚胺类化合物由于其在催化、模拟生物酶及抗体、分子识别等方面吸引了众多科学工作者,而杂环席夫碱及其过渡金属配合物由于其生物活性和药理学性质,如抑菌、抗癌、抗炎及抗抑
电影排片对票房起着至关重要的作用,文章从排片步骤、排片原则、尝试建立数学模型权衡因素探寻科学有效的排片方法,从而实现影院利益最大化。