基于哈希的HBase二级索引研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:luzhiqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各领域信息化水平的不断提高,人们通过网络交互信息的能力增强,互联网上的数据量迅速增长,海量数据的存储和高效检索问题亟需解决。关系数据库难以应对海量的数据,非关系数据库风生水起,其中作为典型代表非关系数据库HBase得到业界广泛应用。相对于关系数据库,HBase更加灵活,对数据类型没有限制,而且容易扩展,可靠性高,适合存储海量的非结构化数据。但是,HBase只提供了基于行键的键值查询和全表扫描功能,数据查询方面不像关系数据库那样灵活。虽然业界在原生HBase基础上添加了二级索引,但是已开源的HBase二级索引方案索引行键冗长,造成了存储空间的浪费。HBase是面向列存储的,在每个Cell中都会存储行键。因此,HBase存储的列越多行键冗余存储的次数越多,浪费的存储空间会越多。本文综述了大数据相关技术,介绍了 Hadoop生态圈中各系统架构和原理以及各组件的功能。通过阅读文献和对HBase源码分析,总结了 HBase行键设计原则。针对已有开源的HBase二级索引方案的不足,设计了基于哈希的HBase二级索引方案。利用哈希算法将过长的索引行键映射成16字节的哈希值作为索引表的行键,解决了多维列值复杂查询时索引表行键过长,浪费存储空间的问题。最后本文用Cloudera版本Hadoop和Zookeeper搭建了支持HBase运行的集群环境,利用从网上书城爬取的800万条数据作为数据源进行实证分析。结果表明在查询性能方面本文提出的方案与其他二级索引方案几乎没有明显差别,但是在占用磁盘空间方面,本文提出的方案明显比其他方案小很多。本文提出的方案适合行键超过16字节的情况。在涉及多列复杂查询时,多列值拼成的索引行键会很长,而且长短不齐,不符合HBase行键设计原则。在对上亿行数据表建立二级索引时,利用本文提出的二级索引方案可以将过将超过16字节的索引行键映射成符合HBase行键设计原则的16字节的哈希值,将映射后的哈希值作为索引表的行键可以节省大量的存储空间。
其他文献
高压CO_2气体运输目前有船舶和管道两种运输方式,如果需要长途运输,采用管道运输方式效率会大幅提高,但管道运输方式存在较大隐患,如果CO_2气体在封闭且人口稠密的环境里发生泄漏,就会有极大可能性对处于高浓CO_2区域的生物造成重大伤害。在研究气体泄漏问题的相关领域内,国内外发展程度差距较大,国外遥遥领先于国内,虽然扩散模型已形成较为成熟的理论体系,但不同特性的气体适应不同的扩散模型。对于CO_2气
马克思主义基本理论是由多种分论构成的统一整体,具有典型的系统性和整体性特征,马克思共同体思想即为其中一个有机构成部分,其以历史唯物主义为问题分析切入点,以此对人类社会发展的基本规律展开全面解读。共同体思想则是马克思在分析人的自由、发展时的理论支撑。马克思本人并非共同体思想理论的提出者,城邦与契约共同体(古希腊)及德国的空想社会主义等才是马克思共同体思想的源头所在。共同体思想历经了三个发展阶段,即萌
经过近十年的发展,钙钛矿太阳能电池的效率由2009年的3.8%提升到现在的24.2%,且具有千小时级的稳定性;蓝、绿和红光钙钛矿LED均具有很高的荧光量子产率并已分别实现5.7%、~20%
“X来”类复合趋向补语表义丰富、结构多变,是对外汉语教学中的重难点。本文以二语习得理论和三个平面语法理论为基础,结合复合趋向补语本体研究及对外汉语教学研究的优秀成
目的:本研究以颈型颈椎病患者为研究对象,以穴位触诊反应、穴位温度变化和穴位机械痛阈变化为观察指标,分析不同经络辨证分型的颈型颈椎病患者穴位敏化现象的表现形式、分布
目的:探讨白介素-33(Interleukin-33,IL-33)对慢性根尖周炎破骨细胞生成及骨吸收功能的影响,研究IL-33在破骨细胞形成过程中的关键调控和分子机制,并进一步证明IL-33在慢性根尖周炎骨吸收机制中的作用。方法:1、测定IL-33对小鼠前破骨细胞RAW264.7细胞增殖和分化的影响。应用100ng/ml IL-33作用RAW264.7细胞,并于诱导1.5h、3h、6h、1d、2d
对性的认知需求是幼儿身心发展过程中自然产生的一种需要。顺应幼儿的身心发展规律,对幼儿进行适当的性教育十分必要的,这会为儿童的性发展打下基础。近年来,由于以学龄前儿童为对象的性侵犯案件屡见不鲜,倒逼着家长、教育者等社会各方思考开展幼儿性教育的迫切性。幼儿园作为专业的教育机构,应与家庭一起承担起对幼儿进行性教育的责任。而适合幼儿阅读的优秀绘本,则是幼儿园开展教育活动的主要资源。因此,以优秀的性教育主题
卷云的物理特性对研究卷云的辐射强迫具有重要意义。CloudSat和CALIPSO (Cloud-Aerosol Lidar and Infrared Pathfinder Satellite Observations)属于A-train卫星观测系统成
目的医疗诊断是医生综合患者的症状体征和多种检查信息进行决策和判断的过程,其本质为分类。肝癌是我国最常见的恶性肿瘤之一,早期肝癌患者临床症状和各类检查的特征均不明显
作为教学过程中一个不可或缺的环节,英语家庭作业对教师的课堂教学和学生的语言学习都起着重要作用。为了把握教学中有关作业的基本情况,本研究拟对初中英语家庭作业的基本现状展开调查,以期为相关的教学环节提供一定的参考。研究对象为赣州市某所九年一贯制学校八年级4个平行班共251名学生和4名英语老师,主要通过问卷调查和半结构化访谈的方法收集英语家庭作业现状的相关数据。具体而言,本研究主要从作业的目的、内容与形