论文部分内容阅读
随着互联网行业的进展,越来越多的数据出现在各行各业中,极大地推动了社会的进步和时代的发展。而随着海量数据的增长,各种技术应运而生。另一方面,固态硬盘等硬件的应用,又使得数据在应用领域性能得到极大提升。在海量数据的应用中,和传统数据库中关系数据模型不同,最典型的是非关系数据库在分布式领域的应用,比如hadoop等应用框架的发展。但是由于常用的系统结构都是建立在传统硬件基础上,没有考虑固态硬盘等硬件的特性,因此性能优化基本集中在节点通信,负载均衡等方面,而忽略了硬件特性的发展。因此如何将海量数据,非关系数据结构,固态硬盘三者有机的结合在一起,根据现有模型进行优化,提升读写性能,是本文讨论的重点。本文在现有常用基于闪存的系统结构基础上,提出基于写和读两方面的性能改进。具体表现为:对于写算法研究,通过合理的数据结构和算法研究,将随机写的过程变成连续写的过程。并且对比固态硬盘连续写,和随机写的性能,以及将固态硬盘和普通硬盘应能做对比,完成了写算法的改进。在充分考虑和利用固态硬盘硬件特性的基础上,完成写优化算法的研究工作。对于读算法研究,通过改进布隆过滤器的结构,提出基于固态硬盘的多重布隆过滤器研究,对传统的布隆过滤器进行改造,将传统的布隆过滤器一次查询改为分步查询的过程,从而达到提升性能得效果。通过改进数据结构,利用固态硬盘读数据快的特点和布隆过滤器假阳性查询代价高的特性,提升读的性能。