基于Hadoop的数据库查询引擎的研究与实现

来源 :江苏大学 | 被引量 : 0次 | 上传用户:xtljj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务和信息技术的飞速发展,企业需要存储和处理的数据量正在以惊人的速度增长,而传统的基于单处理器和单计算机平台的处理能力已无法满足日益复杂的查询需求。如何才能准确有效地从海量的结构化数据中获取一些有价值的信息,提高数据库查询处理的效率,成为目前急需解决的问题。云计算作为一种新型的计算模式,具有处理能力强、使用安全可靠等优点。因此,研究云计算的计算模式在传统的数据库查询中的应用,具有广泛的实际应用价值。   本文在深入分析了Hadoop云计算平台的基础之上,给出了一种将云计算应用于传统数据库查询的方法,并据此完成了基于Hadoop平台的数据库并行查询引擎的设计与实现。该引擎不仅实现了数据库查询的并行化,提高了查询处理的效率,同时也增强了Hadoop平台处理复杂查询的能力。   本文从数据分布和数据查询两个方面,深入探讨了云环境下数据库并行查询引擎的设计与实现,具体工作如下:   1、研究了Hadoop平台原有的数据放置策略,并就异构的集群环境给出了一种依据集群中各节点的处理能力和负载情况进行数据放置的策略,并给出了详细的实现方法。   2、设计了一种类SQL的查询脚本语言,用于对底层的数据库集群进行查询。在查询过程中,借鉴编译原理词法和语法分析的一般流程,抽取出查询脚本的抽象语法树;通过对语法树的遍历,获得查询所涉及的表、字段以及其他信息;最后,以MapReduce任务的形式封装这些能在数据库中执行的SQL脚本。   3、针对查询需求的不同,给出了三种常见的查询需求的实现策略,即简单选择查询、连接查询以及聚集查询。为了减少查询过程中生成的大量中间小文件给效率带来的影响,给出了一种依据Reduce的任务数进行中间键值对合并的算法。   4、本文最后给出了基于查询引擎设计并实现的学术检索原型系统。在文中,着重阐述了该原型系统的体系结构、功能以及技术架构的设计。然后从平台环境的搭建、数据集的采集和放置以及查询效率的比较和分析等方面描述了该原型系统的实现过程。通过该原型系统设计及实现过程,给出基于该查询引擎的构建查   5、询应用系统的实施流程。
其他文献
随着互联网技术的迅速发展,网络上的信息呈爆炸式增长,给人们带来丰富信息的同时也带来了一定的困扰。面对这海量的信息资源,如何能快速而又准确地获取信息成为一个研究热点。在
Web服务作为一种新的Web应用访问标准,它很好的解决了高度异构的数据和应用的整合集成和共享等相关问题。在Web服务领域中,服务发现是所研究的关键问题之一,是服务组合,调用和执
人工神经网络一直以来都是人类研究的一个重要的课题,人工神经网络的目标是通过模拟生物神经网络使机器具有人类水平的智能。现在有关人工神经网路的研究大多都集中在神经网络
随着计算机技术的发展,机器视觉已经越来越多的应用到机器人导航、农业、运动目标检测、空间定位以及三维重建等方面,极大地改变着人们的生活,特别是其中的双目立体视觉技术不仅
物联网技术的兴起使得数字家庭受到人们的广泛关注,数字家庭的研究成为当今社会的研究热点。随着数码设备和智能化家用电器在家庭中的的逐步推广,人们对组建数字家庭网络的要
基于ASP/SaaS的汽车零部件产业价值链业务协同服务平台是实现从零部件采购、产品定制、运输、交付到销售,再到售后服务等全业务流程协同的公共服务平台,已经在产业链协同采购
随着网络技术的发展和企业信息化程度的提高,信息安全问题日益凸现,访问控制作为信息防护技术得到了普遍的应用。在众多访问控制模型中,基于角色的访问控制(RBAC)应用最为广泛。
为促进空间数据更好地服务于煤矿企业的开发和利用,空间数据网络化服务变得非常重要,随着互联网技术的快速发展,WebGIS技术已逐步成为空间数据网络发布的主要技术途径,由于空间数
自动人脸识别技术是人工智能领域的研究热点之一,涉及图像处理、模式识别、机器视觉、心理学等多个学科领域的知识。随着社会各领域智能化的高速发展,人脸识别技术已被广泛应
随着移动智能终端设备的普及和移动互联网技术的蓬勃发展,云计算不再局限于PC和静态的有线拓扑网络,基于手机等智能终端的移动云计算开始崭露头角。然而,与PC相比智能终端的