论文部分内容阅读
Hadoop所具有的并行化处理对开发者透明的优点,使其成为当前应用最广泛的云计算平台。但Hadoop平台下的各项技术还处于完善阶段,其中代表性的有MapReduce参数配置和分布式连接查询。多达190多个参数的管理配置直接影响Hadoop系统运行性能,目前多依赖管理员的经验配置,缺乏统一的科学的方法;而基于数据仓库Hive的默认连接查询算法,因在节点之间传递的是完整的数据表,带宽消耗大和响应速度慢是算法的主要问题。为此,论文以MapReduce参数配置和分布式连接查询为研究对象。 在硬件环境一定的Hadoop集群中,系统性能的好坏很大程度上取决于Reduce Task启动百分比参数配置的合适性。该参数的默认配置值为5%,主要是为了提高系统的slot资源利用率;而在实际中,管理员一般将其提高到50%或更大,以大幅度地提高系统响应时间。论文即以该重要参数的配置为例,提出了一种基于权重决策分析法AHP的参数优化配置算法,以提高配置的科学性。算法的实现主要有以下3个关键步骤:(1)选取AHP模型的决策属性:论文选取与优化参数息息相关的3个参数为决策属性,以匹配通用的AHP模型;(2)由实验获得各决策属性值:利用MapReduce程序,通过分组实验得到各属性值;(3)由前两个步骤得到决策属性曲线,根据曲线反应的规律即可获得参数的最佳配置值。论文设计的基于虚拟机的分组实验,得出的Reduce Task启动百分比参数最佳配置为45%,在该配置值下可以更好地均衡系统的slot资源利用率和响应时间。 针对Hive在处理连接查询时,所存在的系统响应速度慢和带宽资源消耗大等问题,提出了一种基于数据预处理和双半连接的SDD-1改进算法。首先,引入预处理技术,在各分布节点对原始数据进行归并排序,以减少汇聚节点的数据映射次数,加快数据处理执行速度;其次,采用基于行和列的双半连接技术,进一步缩减在不同节点间的数据传输量,减少带宽资源消耗。实验表明,相比原始的Hive连接查询算法,改进算法在元组数达到特定规模后,可在一定程度上提高系统响应时间。