论文部分内容阅读
时空数据是一种同时具备时间属性、空间属性以及其他属性的多维数据。随着无线通信、移动定位以及传感器的广泛应用和发展,时空数据无论从种类、增长速度还是数据规模上都迎来爆发式增长。传统的关系数据库系统由于存储容量﹑可扩展性等方面的限制,已经难以满足海量时空数据存储和管理的需要。HBase作为非关系型数据库的代表,可扩展性强,为时空数据存储和管理提供了新的途径。目前,基于HBase的时空索引和检索技术还存在不足之处,一方面,树形结构的时空索引结构复杂而且无法对并发处理提供足够的支持;另一方面,特定结构的索引能够支持的查询种类单一,可扩展性不足。本文在分析HBase和时空数据特点的基础上,以Hilbert curve空间填充曲线、HBase二级索引技术和MapReduce并行计算框架为理论基础,对基于HBase的时空索引模型与检索方法进行了深入研究。本文的主要工作如下:(1)设计了基于HBase的时空数据存储结构:良好的存储结构有利于提高系统的吞吐量,同时也为索引的设计提供便利。本文分别从行键和列族两个方面讨论了基于HBase的时空数据存储结构的设计思路,并对其进行了简要的性能分析。(2)提出了基于HBase的时空索引模型:本文利用HBase行键按照字典排序的特性,结合Hilbert curve空间填充技术以及时间编码算法,在行键上设计了时空索引;考虑到应用需求的经常变更以及时空数据多属性的挖掘,在扩展列族上设计了Region级别的二级索引。本文设计的时空索引更加符合云计算环境的需要;另外,本文设计的二级索引相比于其他二级索引技术,在数据一致性以及可扩展性方面性能更优。(3)设计了基于HBase的时空查询算法:索引的设计是为查询服务的,而查询的设计必须考虑具体的索引结构。本文设计了时空查询并行化框架,并在此基础上结合时空索引模型,设计了并行化的时空查询算法。(4)设计并开发了一个原型系统,对时空索引创建的时空开销以及时空查询算法的性能进行了评估。实验表明,本文提出的基于HBase的时空索引模型和检索方法是行之有效的。