海量存储系统中数据分布进化及其关键技术的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ylali001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化的飞速发展推动存储系统在规模、体系结构等方面都出现了新的改变,朝着大规模、复杂化的方向演化。同时系统所服务的I/O 负载也呈现出多样性、不平衡性和动态性。而当前海量存储系统往往直接继承传统小规模存储系统结构和运行机制,还很难适应具有动态、并发、多样等特性的大规模I/O 负载要求。现有的存储系统物理和逻辑的组织基于静态的结构,该结构很难感知外部负载请求特征和系统的运行状态动态改变,从而无法调整自身的存储组织结构以满足不同I/O 负载在时间和空间上的变化,无法有效和自动提高系统的整体存储效率。面对上述问题,设计针对海量存储系统的数据分布进化机制,对存储系统的动态数据存取负载特性进行分析,根据数据的历史访问信息通过热度模型对未来访问趋势加以预测,将不同热度的数据与不同性能等特征级别的存储资源组加以匹配映射,动态对数据进行迁移和重新分布,以达到提升整体存储效率的目的。数据分布进化的过程完全是自动化的,由进化规则进行控制,通过进化规则管理系统进行调度。   阐述了能够根据当前运行环境自动调整存储组织模式的海量存储系统中的数据分布进化技术。该系统能在运行过程中根据I/O 负载及自身状态的变化,自动选择最适合当前存取负载特征的数据分布模式,满足多用户环境下负载对于性能和可靠性等方面的要求。   建立了数据存取的热度计算模型,对数据存取负载的数据热点进行量化计算和预测。和一般的热度研究结果仅仅涉及数据集的访问次数和频率不同,改进后的热度还综合考虑到访问请求的时间序列因素,使之能够更加有效的体现负载的历史信息,从而能更准确的反映存取负载未来趋势。分别针对文件和LUN的热度进行了分析和定义,以真实的trace数据对热度计算模型加以测试,深入的分析了热度公式的实际数据表现。测试中发现,数据的热度和访问次数和频率正相关,和访问的时间间隔负相关,实验证明热度公式能够较好的对未来的访问行为进行趋势预测。设计了根据数据热度进行数据分布进化的数据迁移机制。数据分布进化中,需要动态调整数据的分布,以适应系统工作负载的变化,从而提升整体系统的效率。   在一般的设计中,根据RAID 级别或RAID组对系统存储资源进行分级,而在进化存储系统中,对系统内所有存储资源按照性能和可靠性等特性进行分级。依据程序访问的局部性原理,针对不同行为特性和需求的热点数据,匹配以相应级别的存储资源,从而有效的利用存储池中的不同存储资源,以显著提高进化存储系统的整体效率。数据迁移策略中还对数据迁移的触发条件和开销进行了定义,并设计了进化存储系统的数据替换策略。在实验部分,通过原型系统验证了分级存储数据迁移对性能提升的效果。   设计了独立的进化规则管理系统,实现海量存储系统的自动化管理。在大规模存储系统中,无论存储系统的物理管理和海量数据的逻辑组织和分布都是极为复杂和动态的,仅仅依赖人工管理是不可行的,因此需要设计基于一系列存储规则的系统来管理和调度系统运行状态。在通常的系统中,规则的所有参数都硬编码在代码中,使得规则的定义、更改和查询非常困难。在规则管理系统中,通过对规则词汇的定义,并引入决策表和决策树的管理,使得系统可以灵活、清晰、快速地定义、查询和变更规则,并且通过规则的引用记录来统计和分析规则的使用情况。研究工作设计和构造可适应自身运行环境的进化存储系统,对数据分布进化中存取负载特性分析和数据迁移机制,以及进化规则的管理都做出了新的尝试,实验证明具有良好的运行效果。
其他文献
随着下一代网络(NGN)的发展,各种协议、设备及业务的种类数量不断激增,网络环境变得越来越复杂,不安全因素越来越多,NGN网络的安全问题成为NGN领域的研究热点和重点问题。为
在传统有线电视业务逐渐被数字电视平台取代的今天,互动电视业务得到了国内外越来越多的有线电视运营商的重视。通过利用VOD系统平台对视频点播、个人节目录制以及时移电视等
随着网络的普及和Web技术的迅速发展,人们迫切需要在Internet上实现跨平台、语言独立、松散耦合的异构应用的集成和交互,这对传统的分布式计算技术提出了新的要求。Web服务作
随着网络教育的发展,“信息过载”、“信息迷航”、“缺乏因材施教”、“环境孤立”等问题已经越来越突出,已经成为影响网络教育发展的关键问题。如何在网络教育平台上根据不同
作为一项新兴的射频识别(RFID)技术,无源可计算RFID标签不仅具有传统被动式标签无源的优点,而且能够进行较为复杂的计算和环境感知,在未来物联网发展中具有巨大的潜力。然而,
在进入信息时代之前,人们在网上获取信息通常是以简单的文字为载体,而图像、音视频由于其包含数据量较大,难以处理等原因而不那么受重视。随着计算机硬件性能的提升与计算机
大规模自然场景建模与绘制技术,在虚拟现实、三维GIS及娱乐业等领域有着广泛的应用。随着应用的不断扩展和深入,人们对地形的规模、场景精度及交互性能等提出越来越高的要求
图像分割是一种基础的视觉图像处理问题,其目的是把人们感兴趣的区域从图像中分割出来。图像分割在图像处理各个领域都得到了广泛的应用。随着各个学科理论的不断发展,与特定
对等网络技术打破了传统的“客户/服务器”模式,使网络中所有的结点都处于平等地位,任何两个网络结点之间都能够共享文件、传递消息。对等网络的目的是让一切网络成员享有“
在分布式自适应问题的背景下,本文首先着重从分布式方面化中间件平台的内核结构、分布式AOP实现方式以及平台框架等几个方面介绍了国内外目前主流分布式方面化中间件的研究现