论文部分内容阅读
近年来,海量空间数据的高效存取管理,成为地学信息科学和计算机科学领域的研究热点问题之一。海量空间数据的快速装载与空间数据特征、数据的组织和存取方式密切相关。传统空间数据库存在横向扩展困难、存取性能有限等缺点,当空间数据量超过TB后,系统性能急剧下降。将现存的海量空间数据以及不断产生的新数据(TB级甚至PB级)快速、高效、无误地装载入库,减短入库时间已成为海量数据处理的瓶颈。 将空间数据中数量较大的半结构化/非结构化数据从中分离开来,交由适宜存储松散数据、可扩展性强的HBase管理。根据矢量、栅格数据等数据模型特征和访问特性,结合HBase逻辑模型设计原则,利用图幅号中的列号和图尾号给出分幅号的计算公式,进而设计出一套RowKey编码。这种编码使得数据分布“局部连续,全局分散”,从而实现负载均衡、并行读取,提升空间数据的查询效率。 针对海量空间半结构化/非结构化数据切片装载量大且装载入库缓慢的问题,以海量空间数据组织方案为基础,设计了缓存和线程并发管理算法,将海量小数据在本地内存生成多个较大的HFile缓存文件,通过并行写缓存文件数据提升网络利用率,以提升装载性能。据此设计并研发了DMLoader装载工具。测试证明,DMLoader在副本为3时的装载速率较HBase上原有的3种装载方式提升了3~6倍,大大缩减了海量数据装载时间。