海量数据存储和准实时查询系统设计与实现

被引量 : 0次 | 上传用户:dumala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量数据的存储和实时查询正在成为时下研究的热点。公司生成的数据量极速增长,急需一个新的方法来存储和分析数据集。传统的数据库管理系统难以处理海量数据的规模,存储这样规模的数据比较缓慢,并且需要前期做更多的设计和准备。本文利用Kafka消息队列、Storm流处理框架、HBase数据库等大数据技术,改进Impala大数据搜索引擎,设计并实现一个能够满足海量数据高吞吐量可靠存储和准实时查询需求的系统。系统具有高并发性、健壮性、动态伸缩和高容错性等特性,易于使用,支持高性能存储,改进的Impala搜索引擎可直接基于HBase快照查询,不再影响HBase的性能,可用于复杂的查询统计类需求。首先利用Protocol Buffer对数据序列化并推入Kafka消息队列,Storm流处理系统从Kafka队列拉取消息,KafkaSpout作为数据源向Storm组件发射消息流,本文实现的FilterBolt将过滤掉不安全的数据,HBaseBolt会最终将数据存储到分布式文件系统中,如果由于异常导致存储失败,会再次拉取这个消息处理,直至处理成功,提高了系统的高容错性。Impala集群和HBase集群共享同一个分布式文件系统,当数据存储在分布式文件系统后,系统基于分布式文件系统机架感知原理,将数据会同时分布到Impala和HBase集群中。改进的Impala引擎支持可直接查询HBase快照,保证了Impala和HBase不影响彼此之间的性能,提高了系统的实用性。最后,本文搭建实验环境完成系统性能测试,监测系统存储的性能和对于异常情况的容错能力,最后与Hive+HBase系统性能进行比较。通过实验结果得出,本文构建的新系统提供高性能存储和可扩展性,实现了海量数据的准实时查询。
其他文献
家长委员会制度是国家为健全家校沟通机制、提升学校教育教学管理质量而创设的学校管理制度。在实际运作的过程中,由于制度机制的不完善、各利益相关者的投机与寻租等原因,出
高压气流形成的风幕可以有效的解决井下通风与交通的矛盾,为提高风幕阻隔风流的效率,利用正交实验的方法设计了影响矿用风幕阻隔效果的6因素5水平实验,以数值模拟的方式完成
译者是翻译过程中的重要组成部分,是翻译的主体,然而,这样的主体地位在翻译研究的"文化转向"之后才得到重视,并逐渐走向深入。译者的主体性体现在翻译的全过程中。本文以《了
在20世纪后半叶,无论是发达国家还是发展中国国家的经济都取得了长足的发展,在世界范围来看,绝大多数人们生活水平和质量不断提高,人们的环境保护意识和生态平衡等理念逐渐兴起,诸
进入21世纪,随着文化、科技的迅猛发展,教育对人的要求也有了新的定义。在新时代、新理念、新课标的要求下,地理学作为中学课堂中必不可少的一份子也被赋予了新的角色,对中学生空
近年来随着我国外语教育事业蓬勃发展,中学英语教学在教学模式和课程体系上都取得了巨大的成就,越来越多的外语教学工作者开始关注情感因素对教学的影响。然而由于长期受应试教
本研究以草鱼(Ctenopharyngodon idellus)、赤眼鳟(Squaliobarbus curriculus)及其杂交F1为实验材料,利用常规核型分析方法分别对其核型特征进行描述,并进行比较和研究,通过
随着社会经济的不断发展, 人们生产生活中对电力的需求也不断增加, 因此对于架空输电线路运维检修要求越来越高. 对于快速高效巡维线路并消除安全隐患、 缺陷, 保证电网安全
采用溶胶-喷雾干燥及氢还原工艺制备超细/纳米W-20 Cu复合粉末;将粉末压制成形,在1 340~1 420℃烧结5~180 min,并研究其致密化行为及晶粒长大机制。结果表明:烧结温度对液相烧结
同伴是儿童非常关键的发展环境。在与同伴的交往与互动中,儿童获得了大量态度、经验、行为和技能,这些都将影响儿童一生的适应。儿童的同伴关系主要包括同伴地位(同伴接纳与同伴