基于副本选择的大数据实时查询处理并行调度

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lihaolong2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Cloudera Impala是一个开源的大数据实时查询系统。Impala使用HDFS作为底层存储管理器。HDFS会对文件进行分块,并为每个块创建多个副本。数据多副本可提高系统的容错性能,并能提供负载均衡。然而,数据多副本条件下的查询处理并行调度将变得更加复杂。Impala的并行调度包括两步:副本选择和执行节点选择。在副本选择的过程中,Impala未考虑通信代价和集群负载,可能延长响应时间。针对现有的查询处理并行调度方法存在未考虑数据多副本的问题,本文提出了基于副本选择的大数据实时查询处理并行调度方法。该方法将所有查询分为单表查询和多表查询两类:若是单表查询,则首先根据数据分布构造流网络,然后使用SRPushRelabelBinary算法选择副本,最后选择执行节点;若是多表查询,则结合代价模型搜索近似最优调度策略。本文定义查询处理的代价为从查询开始处理时刻到预估所有连接操作完成时刻的时间间隔。其包括读磁盘操作的执行时间、选择操作的执行时间、网络传输的时间和连接操作的执行时间。该代价模型综合考虑通信的代价、并行执行和集群的负载。本文利用Maxdiff(V, A)直方图估计中间结果,以提高代价模型的准确度。将本文提出的查询处理并行调度方法集成到Impala2.0系统,并在TPC-DS数据集上进行了实验,结果表明,集成后的Impala系统的查询响应时间比原Impala系统减少了10%~30%。
其他文献
随着时代的进步和移动通信技术的发展,移动电话的普及率显著提高。用户对于移动电话的功能需求也由简单的声音通信功能向着追求娱乐、时尚、个性等方面转变。尤其是在移动通
脑机接口技术是指在脑与外部设备之间直接建立一种信息交流与控制通道,从而实现脑与外界的直接互联的技术。随着脑科学研究的深入,脑机接口技术的发展也愈发迅速。在脑机接口
资源服务化技术是实现分布式、异构资源共享的重要手段,它利用当前广泛应用的Web服务技术,将数据、软件模块甚至具体的物理实体等各种形式的资源的访问方法封装成Web服务,以
基于内容的图像检索是图像检索技术发展的一个重要方向,是管理海量数字图像和视频信息的一种有效手段,其本质是利用图像特有的理解方式来实现自动查找,实现的是一对多的相似
近年来,随着嵌入式系统经历的前所未有的翻天覆地式的变化,构件化技术在嵌入式操作系统的设计中越来越受到重视,构件化操作系统凭着灵活、通用、动态可配置等优点,弥补了传统
步态识别是通过对人行走的姿态进行身份识别和认证的生物识别方法。与其它生物特征识别(指纹、脸像、虹膜等)相比,无需接触和干扰被识别人,可进行远距离识别。步态识别作为一种新
Web服务的出现给企业带来了巨大的商机,在互联网上出现了越来越多的Web服务,但是现有的Web服务相互之间没有联系而且功能简单,这些服务往往不能满足实际应用的需求,因此需要
结合离散数学精品课程网站建设实际工程项目,简介了课题研究的意义,论文研究的主要内容,作者承担的主要工作和论文的组织机制。论文研究了Struts,Spry和DWR框架的组成机制,工
随着云计算技术的快速发展,服务器端应用在性能需求上的挑战越来越大。而传统操作系统架构中太过通用的硬件抽象,也使得这种挑战变得更加艰巨。于此同时,服务器环境中虚拟化
图像处理中图像恢复等不适定反问题的研究,掀起了一股研究基于变分偏微分方程(变分PDE)的图像处理模型与方法的热潮。如何在图像处理过程中有效地保持图像重要边缘等几何结构