基于RDBMS的海量结构化数据存储处理平台设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:rr_uu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,人们获取和产生数据的方式越来越先进,越来越多的结构化数据被存储下来,数据量达到了TB级别,甚至PB级别,这些数据具有规模大、处理速度快、蕴含价值高等特点,国际上已经有相关的海量结构化数据处理技术,但国内技术并不成熟,实现海量结构化数据的分析处理,有利于推动国内大数据技术的发展。   本文通过分析当前主流的大数据技术,包括大规模横向扩展的数据库技术、分布式文件系统HDFS和MapReduce数据处理技术、可扩展的NoSQL技术、面向特定应用的分布式索引和检索技术、并行数据处理技术以及主流的大数据处理产品,提出了适用于海量结构化数据存储和查询的处理方案----XSDP(Structured Data Processing,X有eXtense、eXtreme、eXecutive及“未知”的意思)平台,主要包括支持在线动态扩展的数据存储划分技术、海量数据处理并行任务流技术、用户自定义任务流技术、海量结构化数据的关联和嵌套查询技术。其中数据存储采用分级存储和多种划分方式,分级存储实现了性能与成本的兼顾,数据表以复制或分区方式存储于节点组中,分区方式包括Round-robin、Hash、Range、List四种,实现数据的负载均衡以及实现最小数据迁移量的动态扩展;并行处理任务流技术通过对类SQL语句的解析,形成更小粒度的计算算子,从而实现任务的并行执行及海量结构化数据的关联和嵌套查询技术,同时任务流采用可读文本方式,用户可通过文本编辑器实现自定义任务流。该平台已经初步应用于上海某公司,负责将每日产生的数据导入系统并进行分析,数据导入速率为4.3GB/分钟,目前已存储约400TB数据量,并完成对该部分数据进行各种统计、关联、过滤等类别的查询,目前系统运行正常,并能够满足查询需求。
其他文献
虚拟现实(VirtualReality,VR)技术,作为20世纪末兴起的一门综合性信息技术,融合了计算机图形学、图像处理、传感器、网络、并行处理技术以及多媒体技术等多个信息技术分支。实
随着Internet和网络技术的快速发展,各种类型的网络应用迅速增加并且变得日益复杂。对网络应用系统进行分析和研究以保证系统的稳定性和可靠性具有重要的意义。模拟网络系统的
随着互联网技术的不断深入发展,信息技术在社会各领域中不断普及应用,许多传统、经典的信息技术科学方法在新领域中的应用遇到了新的问题与挑战。传统的HTML语言在数据表示、交
随着云计算技术的迅速发展,在各个领域都出现了云计算应用系统。而且大多数的云计算系统都选择Hadoop平台进行开发和测试。Hadoop是一个开源的代码框架,它实现了对大型数据的并
医学图像分割是医学图像处理中一项非常重要的工作,是由医学图像处理到分析的关键步骤,是目标分离、特征提取和参数测量的基础和前提,使得更高层的医学图像诊断与理解成为了可能
当今科技日新月异,因特网的发展也是十分的迅速,诸如图片文件、音频文件、视频文件等不同格式的文件,以这类文件作为数字内容的商品充满了整个因特网。由于这些数字内容商品
本文给出了U型钢刚性支架和可缩性支架内力及其位移的计算方法,对于可缩性U型钢支架,本文认为在计算支架内力时除应考虑围岩作用对支架产生的弹性抗力影响,同时还应考虑支架缩动
大型机加工件在生产和加工过程中,由于加工机器自身以及人为装配原因,零件必然会产生一定的形位误差,既工件的实际形状和位置相对于设计所要求的理想形状和位置会产生偏离,其偏离
由于单个的Web服务已经无法满足服务请求者的复杂功能需求,因此如何将已有的、运行在异构平台的Web服务组合起来,提供给用户更为强大和增值的功能,成为Web服务领域研究的一个
随着世界经济一体化进程速度的进一步加快和我国改革开放的不断深化,被称为企业“第三利润源泉”的物流对经济活动的影响日益明显,引起人们越来越高的重视。物流企业能否快速、