分布式顺序表的索引技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yanxt99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代,用户产生内容、物联网、定位系统等技术和应用加快了数据产生的速度。为了解决海量数据的挑战,学术界和工业界提出了一系列新型的NoSQL数据库,并进行了广泛的应用。分布式顺序表是一类常见的NoSQL数据库,支持对主键的点查询和区间查询,但是非主键查询性能较低。  在分布式顺序表上进行非主键查询是一项常见的需求,比如奇虎360进行基于DNS的网络行为特征分析时,会使用源IP作为查询条件;在腾讯的广告系统中,会使用广告主编号作为主键前缀以提高基于广告主查询的性能,但对于统计人员而言,查询“某段时间内点击量大于1000的广告”会成为非主键的查询。  为了提高非主键查询的性能,学术界和工业界提出和实现了许多索引技术,但它们存在3个问题:缺乏分析方法、部分应用场景缺乏合适的索引技术、缺乏度量和评价工具。这提高了索引技术选型、优化和设计的难度和成本。  为此,本文进行了如下工作以解决上述3个问题:  (1)针对现有分析方法的缺陷,提出了索引分类方法和分析模型。依据索引列到索引主键映射、索引组织结构、索引粒度、索引分布、建立索引的时间和索引持久化这六个维度,对来自学术界和工业界、具有不同背景和目的的20余个代表性索引技术进行了刻画和分析,并指出了潜在的、有价值的工作。提出QSModel,使用索引要素量化低并发条件下的查询时间和存储开销,方便索引技术的理论分析。使用来自腾讯的实际工作负载测试QSModel对4种代表性索引技术的量化效果显示,QSModel对索引存储开销比例的最大误差是9.8%,对单维索引查询时间的最大误差为24.2%,对MD-HBase在结果集较大时的误差不超过5%。  (2)针对应用场景问题,提出了新的索引技术。本文提出局部聚簇索引方法LCIndex解决同时满足高插入性能和多维区间查询性能的问题,提出局部多维二级索引方法LMSIndex解决同时满足高插入性能、低存储开销、支持数据更新和删除以及较高多维区间查询性能的问题。LCIndex和LMSIndex都在HBase上实现了原型系统,实验结果表明,LCIndex的插入吞吐量为CCIndex的422%,IRIndex的80%,多维区间查询吞吐量是CCIndex的43.4%到54.6%,IRIndex的183%到407%,存储开销是无索引的HBase的2.31倍。LMSIndex的插入吞吐量是无索引HBase的99.2%,额外存储开销是12%,多维区间查询吞吐量是其1.8~4.06倍。与其他索引技术相比,LMSIndex有最优的插入性能和最低的存储开销,虽然多维区间查询性能不如CCIndex和LCIndex,但与其他二级索引相比有明显的优势。  (3)针对度量和评价的问题,构建分布式顺序表的索引技术基准测试程序DTIB,方便用户使用DITB进行索引技术实际性能的比较。DTIB集成了5种索引技术,并且提供了统一接口,用户可以以此为基础,实现新的索引技术并与已经集成的索引技术进行比较。DTIB还实现了数据加载接口,方便用户使用自身数据集。  LCIndex、LMSIndex和DITB都已经开源,LCIndex基于HBase0.94.16版本的开源工程链接为https://github.com/fengchen8086/LCIndex-HBase-0.94.16; DITB基于HBase1.2.1的开源工程链接为https://github.com/fengchen8086/ditb,并集成了LCIndex和LMSIndex的代码。
其他文献
信息技术和互联网的飞速发展给人们带来了日益丰富的多媒体资源,包括大量的静态图片、视频、文本以及音频数据等。如何从海量数据中准确、快速、完备地检索出我们感兴趣的内容
随着我国进一步加快教育信息化和现代远程教育工程的发展,规范教育信息技术和Web教学资源的开发工作,实现优秀教学资源的整合和共享,已成当务之急。在此背景下,如何建立一套通用
通过Baum-Welch算法能够得到基于当前训练序列的模型参数.当遇到许多具体情况时,如训练数据不足、多个训练序列等,有必要对经典的训练算法进行一定的改进,使系统在特定的情况
学位
该文综述了博弈论在网络中的应用和调和比率的计算 在第一章中,简述了博弈论和纳什均衡的基本概念;第二章给出了调和比率的定义以及相应的一些结果;第三章证明了两个特殊时延
本文针对内燃机车的并发故障和交叉故障多的特点,提出了诊断机车故障的一种神经网络专家系统模型,首先依据机车的结构和各个部分的组成设计分布式协同专家系统,将专家系统的
在过去的几十年中,人脸识别技术作为模式识别和计算机视觉领域的一大研究热点,得到了广泛的关注和深入的研究。然而21世纪是一个大数据的时代,获取具有同一主题的大量图像数据变
光纤通道、Infiniband和iSCSI是下一代SCSI传输机制的竞争者.该文分析了三种协议的不同部分,而且对它们是否满足SAN环境的需要进行了评估.iSCSI是SCSI远程过程调用模型在TCP
针对节点电量局限性问题,除了改进电源技术外,研究者还从MAC层和网络层协议角度提出了改进方案.该文侧重于AdHoc网络的连通寿命(从网络开始构成到产生网络分割的时间)问题的
该文在综述Web数据挖掘的分类、研究内容和目前的研究现状的基础上,明确了Web用户访问日志数据挖掘研究的难点在于:如何对原始日志数据进行预处理,其中包括如何确定用户事务,