基于Hadoop的数据库查询引擎的研究与实现

来源 :江苏大学 | 被引量 : 0次 | 上传用户：xtljj

【摘要】

：

随着电子商务和信息技术的飞速发展，企业需要存储和处理的数据量正在以惊人的速度增长，而传统的基于单处理器和单计算机平台的处理能力已无法满足日益复杂的查询需求。如何才能

【作者】

：

朱立红

【机构】

：

江苏大学

【出处】

：

江苏大学

【发表日期】

：

2013年期

【关键词】

：

数据库集群查询引擎数据放置技术架构 Hadoop平台

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着电子商务和信息技术的飞速发展，企业需要存储和处理的数据量正在以惊人的速度增长，而传统的基于单处理器和单计算机平台的处理能力已无法满足日益复杂的查询需求。如何才能准确有效地从海量的结构化数据中获取一些有价值的信息，提高数据库查询处理的效率，成为目前急需解决的问题。云计算作为一种新型的计算模式，具有处理能力强、使用安全可靠等优点。因此，研究云计算的计算模式在传统的数据库查询中的应用，具有广泛的实际应用价值。　　本文在深入分析了Hadoop云计算平台的基础之上，给出了一种将云计算应用于传统数据库查询的方法，并据此完成了基于Hadoop平台的数据库并行查询引擎的设计与实现。该引擎不仅实现了数据库查询的并行化，提高了查询处理的效率，同时也增强了Hadoop平台处理复杂查询的能力。　　本文从数据分布和数据查询两个方面，深入探讨了云环境下数据库并行查询引擎的设计与实现，具体工作如下:　　 1、研究了Hadoop平台原有的数据放置策略，并就异构的集群环境给出了一种依据集群中各节点的处理能力和负载情况进行数据放置的策略，并给出了详细的实现方法。　　 2、设计了一种类SQL的查询脚本语言，用于对底层的数据库集群进行查询。在查询过程中，借鉴编译原理词法和语法分析的一般流程，抽取出查询脚本的抽象语法树;通过对语法树的遍历，获得查询所涉及的表、字段以及其他信息;最后，以MapReduce任务的形式封装这些能在数据库中执行的SQL脚本。　　 3、针对查询需求的不同，给出了三种常见的查询需求的实现策略，即简单选择查询、连接查询以及聚集查询。为了减少查询过程中生成的大量中间小文件给效率带来的影响，给出了一种依据Reduce的任务数进行中间键值对合并的算法。　　 4、本文最后给出了基于查询引擎设计并实现的学术检索原型系统。在文中，着重阐述了该原型系统的体系结构、功能以及技术架构的设计。然后从平台环境的搭建、数据集的采集和放置以及查询效率的比较和分析等方面描述了该原型系统的实现过程。通过该原型系统设计及实现过程，给出基于该查询引擎的构建查　　 5、询应用系统的实施流程。

其他文献

Web文档自动摘要技术研究

随着互联网技术的迅速发展，网络上的信息呈爆炸式增长，给人们带来丰富信息的同时也带来了一定的困扰。面对这海量的信息资源，如何能快速而又准确地获取信息成为一个研究热点。在

学位

信息检索自动摘要查询扩展向量空间模型概念统计非线性评论文本

基于OWL-S Service Model过程匹配方法的研究

Web服务作为一种新的Web应用访问标准，它很好的解决了高度异构的数据和应用的整合集成和共享等相关问题。在Web服务领域中，服务发现是所研究的关键问题之一，是服务组合，调用和执

学位

Web服务语义Web本体服务匹配过程匹配

基于记忆元件的突触电路的研究

人工神经网络一直以来都是人类研究的一个重要的课题，人工神经网络的目标是通过模拟生物神经网络使机器具有人类水平的智能。现在有关人工神经网路的研究大多都集中在神经网络

学位

记忆元件突触电路理论特性神经网络

双目立体视觉重建与测量系统研究

随着计算机技术的发展，机器视觉已经越来越多的应用到机器人导航、农业、运动目标检测、空间定位以及三维重建等方面，极大地改变着人们的生活，特别是其中的双目立体视觉技术不仅

学位

双目立体视觉重建系统测量系统立体匹配左右一致校正

UPnP在数字家庭中的应用研究

物联网技术的兴起使得数字家庭受到人们的广泛关注,数字家庭的研究成为当今社会的研究热点。随着数码设备和智能化家用电器在家庭中的的逐步推广,人们对组建数字家庭网络的要

学位

丢包服务发现UPnP队列大小算法最佳区间算法

基于特征的领域工程及构件技术应用研究

基于ASP/SaaS的汽车零部件产业价值链业务协同服务平台是实现从零部件采购、产品定制、运输、交付到销售,再到售后服务等全业务流程协同的公共服务平台,已经在产业链协同采购

学位

领域工程特征模型构件提取构件库

基于XACML的访问控制模型的研究与评估优化

随着网络技术的发展和企业信息化程度的提高，信息安全问题日益凸现，访问控制作为信息防护技术得到了普遍的应用。在众多访问控制模型中，基于角色的访问控制(RBAC)应用最为广泛。

学位

访问控制框架策略评估优先级职责分离冲突检测

基于元数据管理的煤矿空间数据发布技术研究

为促进空间数据更好地服务于煤矿企业的开发和利用，空间数据网络化服务变得非常重要，随着互联网技术的快速发展，WebGIS技术已逐步成为空间数据网络发布的主要技术途径，由于空间数

学位

元数据自动提取空间数据共享OGC样式渲染

基于PS—SIFT算法的多姿态人脸识别研究

自动人脸识别技术是人工智能领域的研究热点之一,涉及图像处理、模式识别、机器视觉、心理学等多个学科领域的知识。随着社会各领域智能化的高速发展,人脸识别技术已被广泛应

学位

PS-SIFT算法多姿态人脸识别图像处理仿真实验

移动云计算中高能效的数据获取技术研究

随着移动智能终端设备的普及和移动互联网技术的蓬勃发展,云计算不再局限于PC和静态的有线拓扑网络,基于手机等智能终端的移动云计算开始崭露头角。然而,与PC相比智能终端的

学位

移动云计算数据替换数据预取数据复制低能耗

基于Hadoop的数据库查询引擎的研究与实现

与本文相关的学术论文