分布式顺序表的索引技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：yanxt99

【摘要】

：

在信息时代，用户产生内容、物联网、定位系统等技术和应用加快了数据产生的速度。为了解决海量数据的挑战，学术界和工业界提出了一系列新型的NoSQL数据库，并进行了广泛的应用。

【作者】

：

冯琛

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

分布式存储 NoSQL数据库分布式顺序表索引技术

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在信息时代，用户产生内容、物联网、定位系统等技术和应用加快了数据产生的速度。为了解决海量数据的挑战，学术界和工业界提出了一系列新型的NoSQL数据库，并进行了广泛的应用。分布式顺序表是一类常见的NoSQL数据库，支持对主键的点查询和区间查询，但是非主键查询性能较低。　　在分布式顺序表上进行非主键查询是一项常见的需求，比如奇虎360进行基于DNS的网络行为特征分析时，会使用源IP作为查询条件;在腾讯的广告系统中，会使用广告主编号作为主键前缀以提高基于广告主查询的性能，但对于统计人员而言，查询“某段时间内点击量大于1000的广告”会成为非主键的查询。　　为了提高非主键查询的性能，学术界和工业界提出和实现了许多索引技术，但它们存在3个问题:缺乏分析方法、部分应用场景缺乏合适的索引技术、缺乏度量和评价工具。这提高了索引技术选型、优化和设计的难度和成本。　　为此，本文进行了如下工作以解决上述3个问题:　　(1)针对现有分析方法的缺陷，提出了索引分类方法和分析模型。依据索引列到索引主键映射、索引组织结构、索引粒度、索引分布、建立索引的时间和索引持久化这六个维度，对来自学术界和工业界、具有不同背景和目的的20余个代表性索引技术进行了刻画和分析，并指出了潜在的、有价值的工作。提出QSModel，使用索引要素量化低并发条件下的查询时间和存储开销，方便索引技术的理论分析。使用来自腾讯的实际工作负载测试QSModel对4种代表性索引技术的量化效果显示，QSModel对索引存储开销比例的最大误差是9.8％，对单维索引查询时间的最大误差为24.2％，对MD-HBase在结果集较大时的误差不超过5％。　　(2)针对应用场景问题，提出了新的索引技术。本文提出局部聚簇索引方法LCIndex解决同时满足高插入性能和多维区间查询性能的问题，提出局部多维二级索引方法LMSIndex解决同时满足高插入性能、低存储开销、支持数据更新和删除以及较高多维区间查询性能的问题。LCIndex和LMSIndex都在HBase上实现了原型系统，实验结果表明，LCIndex的插入吞吐量为CCIndex的422％，IRIndex的80％，多维区间查询吞吐量是CCIndex的43.4％到54.6％，IRIndex的183％到407％，存储开销是无索引的HBase的2.31倍。LMSIndex的插入吞吐量是无索引HBase的99.2％，额外存储开销是12％，多维区间查询吞吐量是其1.8～4.06倍。与其他索引技术相比，LMSIndex有最优的插入性能和最低的存储开销，虽然多维区间查询性能不如CCIndex和LCIndex，但与其他二级索引相比有明显的优势。　　(3)针对度量和评价的问题，构建分布式顺序表的索引技术基准测试程序DTIB，方便用户使用DITB进行索引技术实际性能的比较。DTIB集成了5种索引技术，并且提供了统一接口，用户可以以此为基础，实现新的索引技术并与已经集成的索引技术进行比较。DTIB还实现了数据加载接口，方便用户使用自身数据集。　　LCIndex、LMSIndex和DITB都已经开源，LCIndex基于HBase0.94.16版本的开源工程链接为https://github.com/fengchen8086/LCIndex-HBase-0.94.16; DITB基于HBase1.2.1的开源工程链接为https://github.com/fengchen8086/ditb，并集成了LCIndex和LMSIndex的代码。

其他文献

跨模态人脸检索研究

信息技术和互联网的飞速发展给人们带来了日益丰富的多媒体资源，包括大量的静态图片、视频、文本以及音频数据等。如何从海量数据中准确、快速、完备地检索出我们感兴趣的内容

学位

人脸检索跨模态协方差矩阵二值编码欧氏空间黎曼流形异质空间人脸属性

Web教学资源专用标记语言的研究及论证系统的开发

随着我国进一步加快教育信息化和现代远程教育工程的发展，规范教育信息技术和Web教学资源的开发工作，实现优秀教学资源的整合和共享，已成当务之急。在此背景下，如何建立一套通用

学位

XMLIMS规范半结构化SGMLDTDXSL通用标记语言可扩展标记语言专用标记语言Web课程名域

基于隐马尔可夫模型的基因识别系统的设计与实现

通过Baum-Welch算法能够得到基于当前训练序列的模型参数.当遇到许多具体情况时,如训练数据不足、多个训练序列等,有必要对经典的训练算法进行一定的改进,使系统在特定的情况

学位

基因识别隐马尔科夫模型Baum-Welch算法Viterbi算法

位置服务中保护用户位置隐私的k近邻查询研究

学位

网络中的纳什均衡与调和比率

该文综述了博弈论在网络中的应用和调和比率的计算在第一章中,简述了博弈论和纳什均衡的基本概念;第二章给出了调和比率的定义以及相应的一些结果;第三章证明了两个特殊时延

学位

博弈论纳什均衡调和比率平行网络

一种可用于机车部件故障诊断的神经网络专家系统研究

本文针对内燃机车的并发故障和交叉故障多的特点,提出了诊断机车故障的一种神经网络专家系统模型,首先依据机车的结构和各个部分的组成设计分布式协同专家系统,将专家系统的

学位

故障诊断专家系统神经网络FUZZYART

视频人脸识别中的特征表示与度量学习

在过去的几十年中，人脸识别技术作为模式识别和计算机视觉领域的一大研究热点，得到了广泛的关注和深入的研究。然而21世纪是一个大数据的时代，获取具有同一主题的大量图像数据变

学位

视频人脸识别统计流形特征学习概率估计原型学习

基于iSCSI技术的SAN的研究与设计

光纤通道、Infiniband和iSCSI是下一代SCSI传输机制的竞争者.该文分析了三种协议的不同部分,而且对它们是否满足SAN环境的需要进行了评估.iSCSI是SCSI远程过程调用模型在TCP

学位

网络存储iSCSI数据网络存储区域网络

Ad Hoc网络分割的自愈合机制研究与仿真

针对节点电量局限性问题,除了改进电源技术外,研究者还从MAC层和网络层协议角度提出了改进方案.该文侧重于AdHoc网络的连通寿命(从网络开始构成到产生网络分割的时间)问题的

学位

Ad Hoc网络功耗协议网络分割自愈合机制路由协议

基于Web日志数据挖掘的Web缓存策略

该文在综述Web数据挖掘的分类、研究内容和目前的研究现状的基础上,明确了Web用户访问日志数据挖掘研究的难点在于:如何对原始日志数据进行预处理,其中包括如何确定用户事务,

学位

WWW关联规则数据模型数据挖掘缓存策略

分布式顺序表的索引技术研究

与本文相关的学术论文