基于Hadoop平台的大数据增量处理技术的研究

来源 :东北大学 | 被引量 : 3次 | 上传用户:liuzhaozhihui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大数据已成为科技界和企业界关注的热点,具有广阔的研究和应用前景,但面临处理时效性与数据可用性等诸多挑战。大数据处理任务经常在数据变化较小的情况下不断重复运行,这是大数据处理的一个主要形式。大数据增量变化的特性表明以增量的模式进行大数据处理能够极大地提高性能。为此,本文针对如何在云环境下高效地进行增量大数据管理进行研究,侧重于大数据存储模型、并行处理模型、任务调度策略三个方面,构建了基于Hadoop平台的增量大数据处理框架。主要工作包括。(1)提出支持增量处理的大数据存储模型,为大数据并行处理提供基础保障。在Hadoop环境中对分布式文件系统进行增量存储设计,使用Rabin指纹算法实现对用户输入的数据进行基于内容的数据分块,增量处理时判断分割数据块的重复性,即可实现增量处理框架高效地使用上次处理的中间结果。(2)提出适用于大数据增量处理的并行处理模型与算法,提高大数据并行处理的效率。此模型主要实现增量Map和增量Reduce模型设计,增量处理时通过判断处理的Map (Reduce)任务是否相同,实现重复使用存储服务器存储的中间结果,提高增量处理的并行处理效率。(3)提出基于负载感知的公平调度策略,合理利用资源。为平衡每个TaskTracker的工作负载,综合考虑每个运行Slaves的负载参数,通过实时监控各个Slaves的工作负载值来判断是否需要对其上的Mapper和Reducer进行任务的重新分配,以此实现高效、合理地使用集群中的各种资源。总之,本文研究了基于Hadoop平台增量处理的问题,提出了新颖、有效的解决方法,解决了在原有系统中低效、耗时的问题。实验结果验证了这些方法的有效性和高效性。
其他文献
随着语义Web的迅速发展,语义Web中的信息量呈现爆炸式的增长趋势,如何从海量信息中快速、准确的获取有用信息成为一个热门课题。RDF(Resource Description Framework,资源描
智能视频监控是利用计算机视觉和图像处理的方法对摄像机拍下的图像序列进行自动分析,实现对场景中运动目标的定位、识别与跟踪,并在此基础上对目标的行为进行分析与判断,从
3G的蓬勃发展和4G的悄然到来,无论是个人还是企业团体,都越来越深入地走进了现代信息化的生活,基站作为支持信息传播最基本和最重要的硬件,同样遇到了挑战。基站具有数量多、
近年来,随着互联网和搜索技术的进一步发展,仅仅对于网页文本的搜索已经无法满足人们的需要,对于多媒体特别是语音数据的检索已经成为当今研究的热点问题,也是未来几年中互联
随着网络技术不断发展,人们可方便获得大量信息,但高效的获取信息仍是面临的一个巨大挑战。信息检索是一种有效地获得信息的技术,它能帮助人们从海量信息中迅速找到所需信息。
网络和通信技术的发展突飞猛进,多媒体和音/视频编解码技术日趋成熟,大量多媒体通信业务涌现出来。VoIP技术可以实现PC与电话的语音和视频通讯,同时可完成文字、图像的传送,
信息的爆炸性增长对当前的存储技术提出了巨大挑战。新的对象存储技术,能为存储系统提供高性能和高可扩展性,是构建大规模、分布存储系统的基础,正逐渐成为存储领域研究的一
随着经济和科技的飞速发展,企业对信息管理提出了更高的要求,以满足企业之间竞争的需要。作为计算机支持的协同工作CSCW研究的一个重要方向,工作流技术是实现企业业务过程建
当前网络存储系统存在的问题突出表现在网上信息的存储量规模受限;受存储接口的峰值数传率的约束,数据传输缓慢;通道效率高和存取速度慢,响应用户请求的等待时间长;传送数据
在实体识别、个性化推荐、社交网络分析和链接预测等多个领域,都会涉及到相似性度量这一问题,即需要衡量出不同对象之间的相似度。SimRank算法是一种常用的相似性度量模型,它