论文部分内容阅读
随着互联网的快速发展,各种数据呈井喷式增长。这大大丰富了用户可用数据的渠道,但也使得海量数据的管理更加复杂,需要设计新的系统来应对数据管理的挑战。本文对主流以HBase为基础的数据管理平台进行了深入的调研和分析,发现以HBase为基础的数据管理平台存在使用原生API编程存储数据学习难度高且编程复杂,处理数据的自动化程度不足、检索数据效率低、数据易用性不足问题。基于上述问题,针对大数据场景,本文设计了一个新型的系统架构来解决其他基于HBase系统数据管理平台在数据管理上的数据收集、数据处理自动化、检索数据、易用性方面的问题。主要研究内容如下:第一,设计并实现了基于HBase的存储中间件,改良了数据存储的方式,设计并实现以面向对象的方式存储数据和自动构建索引的功能,提升了数据收集和存储效率。第二,设计并实现了 HBase的SQL编程接口和可视化界面,通过设计了 SQL解析模块和SQL-ES语法转换算法实现了更加灵活的SQL语法,通过设计WEB服务使HBase拥有缓存能力,提升了处理数据的自动化、检索数据的效率和易用性。本文搭建了基于HBase的数据管理平台—extendNoSQL平台并进行了性能测试。和原生API的效率相当,简化了编程难度,提升了数据检索效率和计算效率。综上得出能够本文系统在在数据管理即数据的收集、存储、处理和应用功能上更加高效和易用。