论文部分内容阅读
随着信息技术的快速发展,人们获取和产生数据的方式越来越先进,越来越多的结构化数据被存储下来,数据量达到了TB级别,甚至PB级别,这些数据具有规模大、处理速度快、蕴含价值高等特点,国际上已经有相关的海量结构化数据处理技术,但国内技术并不成熟,实现海量结构化数据的分析处理,有利于推动国内大数据技术的发展。
本文通过分析当前主流的大数据技术,包括大规模横向扩展的数据库技术、分布式文件系统HDFS和MapReduce数据处理技术、可扩展的NoSQL技术、面向特定应用的分布式索引和检索技术、并行数据处理技术以及主流的大数据处理产品,提出了适用于海量结构化数据存储和查询的处理方案----XSDP(Structured Data Processing,X有eXtense、eXtreme、eXecutive及“未知”的意思)平台,主要包括支持在线动态扩展的数据存储划分技术、海量数据处理并行任务流技术、用户自定义任务流技术、海量结构化数据的关联和嵌套查询技术。其中数据存储采用分级存储和多种划分方式,分级存储实现了性能与成本的兼顾,数据表以复制或分区方式存储于节点组中,分区方式包括Round-robin、Hash、Range、List四种,实现数据的负载均衡以及实现最小数据迁移量的动态扩展;并行处理任务流技术通过对类SQL语句的解析,形成更小粒度的计算算子,从而实现任务的并行执行及海量结构化数据的关联和嵌套查询技术,同时任务流采用可读文本方式,用户可通过文本编辑器实现自定义任务流。该平台已经初步应用于上海某公司,负责将每日产生的数据导入系统并进行分析,数据导入速率为4.3GB/分钟,目前已存储约400TB数据量,并完成对该部分数据进行各种统计、关联、过滤等类别的查询,目前系统运行正常,并能够满足查询需求。