分布式环境下海量空间数据装载研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:mysqlfalse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,海量空间数据的高效存取管理,成为地学信息科学和计算机科学领域的研究热点问题之一。海量空间数据的快速装载与空间数据特征、数据的组织和存取方式密切相关。传统空间数据库存在横向扩展困难、存取性能有限等缺点,当空间数据量超过TB后,系统性能急剧下降。将现存的海量空间数据以及不断产生的新数据(TB级甚至PB级)快速、高效、无误地装载入库,减短入库时间已成为海量数据处理的瓶颈。  将空间数据中数量较大的半结构化/非结构化数据从中分离开来,交由适宜存储松散数据、可扩展性强的HBase管理。根据矢量、栅格数据等数据模型特征和访问特性,结合HBase逻辑模型设计原则,利用图幅号中的列号和图尾号给出分幅号的计算公式,进而设计出一套RowKey编码。这种编码使得数据分布“局部连续,全局分散”,从而实现负载均衡、并行读取,提升空间数据的查询效率。  针对海量空间半结构化/非结构化数据切片装载量大且装载入库缓慢的问题,以海量空间数据组织方案为基础,设计了缓存和线程并发管理算法,将海量小数据在本地内存生成多个较大的HFile缓存文件,通过并行写缓存文件数据提升网络利用率,以提升装载性能。据此设计并研发了DMLoader装载工具。测试证明,DMLoader在副本为3时的装载速率较HBase上原有的3种装载方式提升了3~6倍,大大缩减了海量数据装载时间。
其他文献
在计算机动画模拟领域中,对水动画的模拟是一项困难而又有意义的课题。本文中使用了两种方法对水动画进行模拟。一种是利用求解浅水波方程常用的数值方法,另一种是通过粒子系统
本文对基于GPS&GPRS的车载监控终端硬件设计进行了研究。文章介绍了采用ARM7核的LPC2104的特性;ubloxGPS信号接收机的基本结构、主要功能、接口定义;GPRS模块的开发,针对wavecom
医学数字成像和通信(Digital Imaging and Communication in Medicine,DICOM)是医学图像及有关信息统一格式及交换方法的标准。论文基于对DICOM标准中相关理论的研究,阐述了
空间数据对象除了空间属性(比如位置)之外,还有一些非空间属性(比如对空间数据对象的描述信息)。但是,目前关于海量空间数据聚合查询的国内外研究还是主要局限在纯空间属性层面,因此
软件体系结构作为20世纪90年代国际软件工程领域出现的一个新兴的重要研究方向,已经成为软件工程界的一个研究热点,同时也已发展成为软件工程的一个独立研究分支。软件体系结
设计模式描述了软件设计过程中某一类常见问题的一般性解决方案,它是成功的构架、设计及实施方案,是经验的总结。设计模式使人们更加简单方便地复用成功的设计和体系结构,使
图像是视觉信息的表现形式和存储载体。随着多媒体、计算机、通讯技术及Internet的快速发展,图像的来源越来越广泛,图像数据库成为组织、表达、存储、查询和利用这些海量图像数
随着数据积累的越来越多,企业迫切希望挖掘出隐藏在大量数据背后的知识以支持决策。现有的数据挖掘工具如IBM的Intelligence Miner,SAS的Enterprise Miner虽然提供了较丰富的
本论文的研究内容是“十五”国防预研课题(新一代战斗机用32位微处理器设计技术研究)中的一部分,课题编号4130801010,目的是研究RISC微处理器的体系结构和方法,设计兼容于Pow