基于Hive的分布式空间数据库的研究与优化

来源 :河南大学 | 被引量 : 0次 | 上传用户:bocha007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式空间数据库是空间数据技术以及分布式数据库技术领域中比较受研究者关注的科学研究内容之一,目前已经应用在各行各业。由于空间数据具有数据量大,属性数据与空间数据密切相关,空间计算复杂等特点,空间数据库的查询效率始终是权衡、量度其性能的重要指标。由此Apache基金会所开发了以分布式系统架构为平台的Hadoop,它是一个能够让用户轻松架构和使用的分布式平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序,而它正是基于Hive这一可靠,高效的数据仓库工具。本文对分布式空间数据库工具Hive的关键技术进行了学习与研究,分布式空间数据库系统hadoop与传统的数据库相比,其通过强大的分布式性能实现了空间计算的高效性,更加适合大数据量的空间数据的计算。主要工作如下:(1)通过对空间数据的理论基础的了解以及认识,对基于HDFS的数据仓库工具Hive框架、基于Hive的分布式计算模型MapReduce、分布式文件系统HDFS框架进行分析。(2)模拟对空间数据的检索以及对基于HDFS的数据仓库工具Hive框架的扩展设计并实现,把SQL进行扩展使之更便于对Hive查询支持,实现Hive用以分布式空间数据查询。(3)在对分布式空间数据库DSQ(Distributed Spatial Querier)的设计完成后,进行初步实现,部分性解决了Hive在查询过程中经常出现的数据倾斜问题,并对在分布式计算时造成的数据倾斜问题的原因进行了详细分析,并采取一些优化方式来提高HDFS对数据的处理效率。(4)通过实验验证了所提出的基于Hive的分布式空间查询系统在查询效率方面与同等计算性能的大型计算设备进行综合性能比较具有明显的优势。
其他文献
无线传感器网络(Wireless Sensor Network,WSN)是一种不依赖固定设备设施,由大量电池供电且具备数据采集、无线传输等功能的移动传感器节点组成的分布式无线多跳网络。WSN具
普适计算被认为是继主机计算模式、桌面计算模式之后的一种新型计算模式,目标是使计算设备和计算服务在整个物理空间中无所不在,而用户在察觉不到计算设备和计算服务存在的情
当今VLSI技术能够将大量的处理器集成到单一芯片上,从而构成多处理器系统来执行大规模并行计算任务。然而,随着系统集成度的日益增高和实际应用中的复杂环境,导致芯片在制造
数字化医院与医疗信息化是当代医疗卫生健康领域的重要发展方向。以病人为中心的电子病历作为医疗信息化的核心,主要解决在医疗卫生领域中病历信息的生成、存储、传输、管理和
随着发电机组发电容量和自动控制程度的不断提高,机组运行过程中可能产生故障的原因越来越繁杂,对机组运行参数的监测和运行状态的诊断的重要性日益突出。但是由于引发机组故障的原因很多且不易察觉,在很多情况下,现场操作人员很难预料到可能发生的故障,甚至故障发生时也不能及时、准确判断导致故障出现的原因;所以,一旦运行机组出现故障,厂方往往急需求助于机组设备或DCS等控制系统厂商的售后工程师或领域内的专家帮助诊
随着计算机技术的迅猛发展和广泛应用,信息化管理已成为成人高考管理改革和发展的重要方向。信息技术的快速发展为成人高考信息化管理的实施提供了坚实的技术基础。成人高考
随着计算机技术的快速发展和网络技术应用的普及,成千上百万的普通市民利用网络来完成银行事务处理,购物和填写纳税单等活动,网络安全已逐渐成为一个巨大的潜在问题,特别是在涉及
WWW上的信息资源正以指数级别的速度增长。在信息极大丰富的同时,用户也面临着信息过载和资源迷茫等问题。Internet上的信息过于庞杂,而且具有不稳定和变动快的特点,没有而且
本课题主要是针对交通场景下智能视频监视系统中的关键技术之一——运动目标识别技术进行了研究。目前的智能交通系统(ITS)主要是针对车辆的检测和识别,往往对行人、自行车/
近年来,数字化技术和Internet的飞速发展,在最大限度地拓宽权利人利益范围的同时,也带来了版权保护的危机。数字水印(Digital Watermark)技术作为信息隐藏学(Information Hid