HiBase:一种基于分层式索引的高效HBase查询技术与系统

来源 :计算机学报 | 被引量 : 0次 | 上传用户:cyqlsc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,众多应用领域的数据量爆炸式增长,迫切需要研究和寻找有效的大数据存储管理方法,提供实时或准实时的大数据查询分析能力.Hadoop HBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台.然而HBase只有主键索引,不支持非主键索引,这导致HBase的数据查询效率较低,难以满足数据实时或准实时查询需求.为此,在HBase基础上提供面向非主键的快速查询能力,是目前Hadoop环境下急需研究和解决的一个重要问题.该文研究提出了一种基于分层式HBase非主键索引的查询模型和方法,该模型和方法首先建立基于HBase的持久性索引.然后,为了利用内存提升查询性能,该文进一步提出了一种索引热点数据缓存技术和一种高效的热度累积缓存替换策略,以降低对HBase索引表的磁盘访问开销.热度累积缓存替换策略克服了最近最少使用(LRU)算法的局限性,考虑数据访问的累积热度和时间局部特性,从而更准确地捕获数据访问的特征.为了使索引热点数据缓存内存层具有良好的可扩展性,HiBase设计了基于一致性哈希的分布式内存缓存,支持高效的基于非主键的单点查询和范围查询.最终,该文设计实现了完整的分层式索引和查询系统HiBase.在千万至十亿条记录规模数据集上的测试结果表明,HiBase冷查询响应时间比标准HBase快65倍(大结果集)到3000多倍(小结果集);而引入基于查询热度累积算法的内存索引缓存方法后,热查询性能可在HiBase冷查询基础上再提升5~15倍,使得总体查询性能比标准HBase快300多倍(大结果集)到1.7万倍(小结果集),比开源的Hindex系统快5~20倍.
其他文献
在近代社会,西方国家逐渐以法律的形式确定了人们的思想自由、言论自由和出版自由等人权。中国社会长期实行大一统的自上而下的管制体制,儒家思想占有统治地位,思想、言论、
现代公司独立人格制度产生和发展有其特殊的历史和逻辑依据。目前,我国公司独立人格制度出现异化现象,建立公司"法人格"否认制度确有必要,而公司"法人格"否认制度的法律条文
发展农村沼气对于解决农民生活用能,缓解能源紧张;加快农村环境卫生治理,改善农村的生产生活条件:提高农产品质量安全水平,增加农民收入,具有非常积极的意义。是社会主义新农村
应用地球化学原生晕找寻盲矿是有效的找矿方法,选取铜绿山铜铁矿区Ⅻ号矿体作为研究对象,通过三维建模和非线性方法分析铜矿体和Ⅻ号矿体原生晕地球化学特征,确定原生晕指示元素
本文对国外近年关于单纯疱疹病毒潜伏和复发机理研究的进展作一综述.内容包括HSV基因的表达和DNA的合成过程;潜伏相关转录体、ICP4和神经细胞及其因子、TK激酶在HSV潜伏和复
《鹿鼎记》不同于作者以往的武侠小说,呈现和建构了一个"非武侠"的世界。作者使用宏大叙事与大话文学的内在张力,体现对政治/权威的反讽,并通过"非武非侠"对经典"武侠"叙事的
社会组织的参与能很好地促进公益事业的发展,有助于满足公民日益增长的公益需求。杭州市社会组织参与公益事业的实践探索取得了显著成效,同时也面临着机制尚不健全、能力不强
爱新觉罗·溥仪是清朝最后一位皇帝。其为清朝皇帝在位时年号"宣统",通称宣统皇帝;其在伪满洲国皇帝位时年号"康德",又称"康德皇帝"。如果说他的一生与"皇帝"二字分不开,同时
在船舶使用条件中,船舶轮机自动化装置系统的设计是非常重要的,其设计需要满足相关的法律法规和相关的规则,也需要对自动化机枪的相关动力系统进行综合考虑。因此,在船舶的设