KStore数据库索引技术的优化

来源 :浙江大学 | 被引量 : 0次 | 上传用户：wdhjhh

【摘要】

：

在当今这个信息技术无处不在的时代，数据每时每刻会由各种源头产生，日积月累，几百TB甚至PB级别的数据量是一种很常见的现象。因此如何以较小的代价存储这些海量数据，并从中快速查

【作者】

：

刘云飞

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2014年期

【关键词】

：

索引优化物化位图反向哈希索引自定义分词 KStore数据库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在当今这个信息技术无处不在的时代，数据每时每刻会由各种源头产生，日积月累，几百TB甚至PB级别的数据量是一种很常见的现象。因此如何以较小的代价存储这些海量数据，并从中快速查询到想要的信息成为一个很普遍的需求。　　对于海量数据的存储，管理与查询，使用传统数据库的存储结构和索引技术已经不能满足人们对处理性能和存储空间的高要求，所以当前迫切需要一套新的针对海量数据的技术解决方案。而其中的索引技术是解决这些问题的关键，因此对索引技术的研究具有非常重大的意义。　　KStore是一个为解决海量数据存储、管理与查询问题的数据库平台。随着爆炸式的数据量增长，其索引技术已经不能满足查询性能的要求，因此当前迫切需要对其索引进行优化。　　目前KStore的索引架构是基于分片索引机制，该机制虽然能够保证高效的插入性能，但是其最大的不足是索引过滤性能会随着数据量的增长而衰落。此外KStore中三种索引（元数据基本索引、分段哈希索引、子串索引）的设计中各自都有各自的不足点，本文正是针对它们的问题进行优化升级。针对元数据基本索引的不足，我们将索引信息分开存放以处理不同类型的查询，同时提出了通过物化位图的方法米达到分段的效果。针对分段哈希索引的不足，我们采用了反向哈希索引技术，通过直接读取哈希值对应的查询结果来大大减少查询过滤时的I/O。针对子串索引的不足，我们提出了将分词操作抽象为一个用户可以自定义的接口，从而大大减少了冲突率，提高了索引的过滤率。理论分析和实验结果表明:优化后这三种索引的大小与原先相比只有少量的增长，而索引的过滤性能却比之前大大提高。

其他文献

基于半结构化文本抽取的FPGA验证报告生成技术研究

现场可编程门阵列(FieldProgrammableGateArrays，FPGA)以其可编程、高并行性、高集成度等优点，被广泛应用于通信、控制等领域。然而，随着FPGA器件日益复杂、系统规模日益庞大，作

学位

现场可编程门阵列半结构化文档信息映射文本抽取验证报告生成技术

基于稀疏标签语义偏好模型的个性化推荐

在大数据时代，如何从海量的数据中挖掘到自己感兴趣的内容成为至关重要的问题。为了满足用户的个性化需求，需要进行个性化推荐。传统的个性化推荐是根据用户对物品的历史评分、

学位

稀疏标签语义偏好模型个性化推荐扩展协同过滤

基于纱线的针织布料模拟与交互式服装设计

随着计算机技术和硬件的飞速发展，虚拟现实技术在服装领域的应用也越来越多，这种技术对降低企业的生产成本、加速产品开发等方面都有很大的改善。目前对虚拟服装的研究主要集中

学位

针织布料模拟不可拉伸性碰撞检测交互式服装设计

子空间聚类算法在流量分类中的应用

在线识别网络流量的业务类型是互联网流量控制，网络资源管理等工作的基础。目前互联网中各种业务流量随着用户需求的快速增长而不断发生变化，包括业务特征值集合的变化，新的业务

学位

深度包检测机器学习流量分类子空间聚类算法

基于Woodcock跟踪的高效散射介质绘制算法的研究与实现

大自然中，云、烟、雾等参入介质(Participating Media)视觉效果无处不在。当光子在介质中传播时，会发生散射或被吸收等事件，从而产生各种丰富的视觉效果。尽管这些效果让绘制出

学位

介质渲染光线步进算法Woodcock跟踪算法GPU技术并行计算能力

基于主动学习的交互式3D图像分割算法研究

3D图像分割技术是医学图像处理的关键步骤，它是沟通图像处理和图像分析的桥梁。现有的3D图像分割算法中，交互式分割算法由于其兼顾了效率和准确率而被广泛地应用在实践当中。但

学位

交互式3D图像分割算法主动学习可视化界面特征空间

基于压延玻璃缺陷检测的关键技术研究

压延玻璃在生产中极易产生气泡、结石等缺陷,有些缺陷会破坏生产过程,甚至危及生命安全。传统的人工检测方式效率低下,容易出现漏检和误检的现象,而自动化机器视觉因具有效率

学位

压延玻璃缺陷显著图SVM

基于单张图像的三维细节人脸模型重建

三维人脸重建是一项重要而较复杂的工作，往往需要专业设备和技术，要生成个性化、细节丰富的人脸模型则要求更高。随着计算机图形学的发展和计算设备、移动终端的普及，我们希望能

学位

三维人脸重建Shape-from-Shading技术网格编辑计算机视觉Poisson方程

基于Kinect的动态人体三维重建

准确而可靠的三维动态几何数字化在影视制作、计算机动画等图形学相关领域中是一个重要的组成部分。不同于静态几何的重建，动态几何帧与帧之间缺少准确的对应信息，此外几何体的

学位

三维重建SCAPE模型运动跟踪Kinect相机

数据容错的多核多线程投机方法研究

多核体系结构为多线程程序提供了高效的运行平台，程序内部依靠类似于锁和栅栏的机制（例如:临界区、互斥量、信号量和事件等）来实现多线程之间的同步，灵活方便，但同时也存在一定的

学位

数据容错多线程投机方法运行性能风险控制

KStore数据库索引技术的优化

其他学术论文