论文部分内容阅读
云计算、物联网、移动互联、社交媒体等新兴信息技术和应用模式的快速发展,促使全球数据量急剧增加,推动人类社会迈入大数据时代。大数据应用背景下,用户对存储空间的需求越来越大,存储的数据类型也日益复杂化,这些现象的出现对传统的数据存储服务提出了极大的挑战。在这一趋势下,近年来伴随着云计算技术而兴起的云存储服务为人们提供了大量廉价的存储空间,逐渐发展成为大数据的存储与管理的主要平台。 然而大数据的应用场景对云存储系统提出了进一步的要求。大数据的大规模特征(Volume)导致了云存储系统的规模将会比以往显著增大。传统的云存储系统的构建方式在提高服务规模及访问性能的同时也带来了巨大的能耗问题。云数据中心的高能耗问题不仅仅是因为数据规模的急剧增大,系统资源的低效组织和无序管理所导致的能源利用率低下也是一个重要原因。 为此,本文在研究了HDFS系统的基础上,对基于合并任务的云存储系统节能思想进行进一步的研究和发展,提出了针对HDFS云存储系统的能耗优化算法。首先,针对以往对集群文件访问热度的度量时所考量的影响因素过于单一的问题,提出了一个基于k-可加模糊测度和Choquet模糊积分的多属性文件访问热度计算模型。该模型在一定的统计周期内,从文件的访问次数、读取数据量以及共享用户数这3个属性出发对文件的访问热度进行度量。其次,根据文件访问热度值对文件数据块副本的活动状态进行决策标记,并根据文件活动数据块的分布情况将HDFS集群划分成不同区域,最终通过迁移数据并休眠部分数据存储节点而达到节省能耗的目的。本文所提出的HDFS集群划分算法能够保证在文件活动数据块分布情况己知的前提下,执行能耗优化算法所需迁移的数据块总数最少,并给出了数学证明。 在大数据环境下,数据价值的时效性往往表现为数据中所蕴含的知识价值随着时间的流失而衰减。云存储系统作为大数据的主要存储平台,必须满足大数据处理对数据存储平台的访问性能需求,避免成为大数据处理的性能瓶颈。云存储系统的能耗优化往往会对系统的访问性能产生一定的负面影响。能耗优化与访问性能优化似乎成为一对不可调和的矛盾。为解决这个矛盾,本文针对云存储系统读取数据时的副本选择问题,在对经典模糊时间序列预测模型进行适当调整的前提下,提出了一种基于预测的副本选择策略,并通过实验验证了该策略的有效性。这为今后从能效比(数据访问效率与能耗比)的角度对大数据应用场景下的云存储系统优化方案的研究奠定了理论基础。