Hadoop下MapReduce参数配置与连接查询算法研究与设计

来源 :江苏大学 | 被引量 : 0次 | 上传用户:white2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop所具有的并行化处理对开发者透明的优点,使其成为当前应用最广泛的云计算平台。但Hadoop平台下的各项技术还处于完善阶段,其中代表性的有MapReduce参数配置和分布式连接查询。多达190多个参数的管理配置直接影响Hadoop系统运行性能,目前多依赖管理员的经验配置,缺乏统一的科学的方法;而基于数据仓库Hive的默认连接查询算法,因在节点之间传递的是完整的数据表,带宽消耗大和响应速度慢是算法的主要问题。为此,论文以MapReduce参数配置和分布式连接查询为研究对象。  在硬件环境一定的Hadoop集群中,系统性能的好坏很大程度上取决于Reduce Task启动百分比参数配置的合适性。该参数的默认配置值为5%,主要是为了提高系统的slot资源利用率;而在实际中,管理员一般将其提高到50%或更大,以大幅度地提高系统响应时间。论文即以该重要参数的配置为例,提出了一种基于权重决策分析法AHP的参数优化配置算法,以提高配置的科学性。算法的实现主要有以下3个关键步骤:(1)选取AHP模型的决策属性:论文选取与优化参数息息相关的3个参数为决策属性,以匹配通用的AHP模型;(2)由实验获得各决策属性值:利用MapReduce程序,通过分组实验得到各属性值;(3)由前两个步骤得到决策属性曲线,根据曲线反应的规律即可获得参数的最佳配置值。论文设计的基于虚拟机的分组实验,得出的Reduce Task启动百分比参数最佳配置为45%,在该配置值下可以更好地均衡系统的slot资源利用率和响应时间。  针对Hive在处理连接查询时,所存在的系统响应速度慢和带宽资源消耗大等问题,提出了一种基于数据预处理和双半连接的SDD-1改进算法。首先,引入预处理技术,在各分布节点对原始数据进行归并排序,以减少汇聚节点的数据映射次数,加快数据处理执行速度;其次,采用基于行和列的双半连接技术,进一步缩减在不同节点间的数据传输量,减少带宽资源消耗。实验表明,相比原始的Hive连接查询算法,改进算法在元组数达到特定规模后,可在一定程度上提高系统响应时间。
其他文献
随着无线通信设备的日益更新,以及无线通信技术的不断发展,无线通信对频谱资源的需求猛增。然而,传统的固定分配频谱策略导致频谱效率低下。在这种情况下,认知无线电技术作为一种
我国是一个农业大国,农作物产量高、肥料需求大,农业生产中作物很容易出现氮(N)、磷(P)、钾(K)及其它元素亏缺的情况,严重影响农产品的产量及经济效益。近年来,随着科学技术的不
随着人们对pH值检测自动化需求的提高,pH值检测方法已从实验室操作发展到使用自动化装置实现在线检测。当前工业生产、环境保护等应用领域通常使用复合电极检测pH值,存在电极易
现代仓库已成为企业的物流中心,其作用不仅是保管,更多是物资流转,因此如何运用现代技术,如信息技术、自动化技术来提高仓储运作的速度和效益是目前人们关注的一个焦点。叉车作为
信息技术飞速发展和Internet自身规模不断扩大的今天,其作为典型的复杂网络系统,其安全性更显得尤为重要。尽管人们做出了很多的努力,但是互联网大规模的相继故障仍时有发生。互
数字水印技术作为信息安全领域研究的一个重要分支,是有效进行数字版权保护的一种信息隐藏技术。数字水印技术是指在不影响数字载体的使用、也不易被人的视觉感知系统觉察的
雷电是通信设备中常见的强电磁干扰源之一,雷雨季节云层中的放电对导体产生感应雷引起的浪涌可能会侵害WSN(Wireless Sensor Network)节点,在无人值守、维护不便的空旷野外,确保节
近年来,随着通信系统日趋复杂,对天线的要求日益提高,而随着频谱资源越来越紧张,做一款能够涵盖诸多系统的宽频天线势在必行。双工器主要用于射频前端,是一种特殊的双向三端口滤波
延时/中断可容忍网络(DTN,Delay/Disruption Tolerant Network)具有灵活的组网方式和高容错率等特点,因此该网络被广泛地应用于星际互联通信、移动车载网络、军用战场通信、灾
阵列信号处理是信号处理领域中一个重要的研究方向。阵列信号处理的研究主要分为波束形成与空间谱估计两个方向,而波束形成算法又可分为两类:统计性算法和确定性算法。本文的