论文部分内容阅读
信息存储是人类社会永恒的需求。随着计算机技术的发展和应用的普及,信息存储容量成爆炸性地增长,现有网络存储系统已无法满足人们对于存储的需要。基于对象存储(Object-Based Storage,OBS)技术逢时崛起,利用现有的存储组件、处理技术和网络技术,通过简单方式来获得前所未有的高吞吐量,成为下一代网络存储的主流。它采用包含数据和属性的“对象”作为接口,既有了“块”接口的快速,又有“文件”接口的便于共享,并分离了存储数据的逻辑视图和物理视图,将存储数据的逻辑视图保留在元数据服务器中,而物理数据存放在基于对象存储设备(Object-Based Storage Device,OSD)中。同时,它将传统文件分解为系列数据对象,分发到一个或多个OSD中。虽然对象给存储系统带来了一种新的理念,但现有的与对象相关的存储系统中对象都仅定义为非定长的数据单位,束缚了“对象”这个有着丰富内涵的词汇。基于可扩展对象的海量存储系统(Based on Scalable Object Mass Storage System,BSO-MSS)吸取了OBS的优点,在“对象”现有的含义基础上扩充,使它不仅只包括用户数据,还将目录、文件、存储设备管理等纳入对象之中,形成层次结构的对象体系结构,实现对象的分布存储、层次管理的模式,并建立基于存储对象统一访问模式,将块、对象和文件三种存储接口进行融合与统一。这样不仅具有统一逻辑视图、数据共享、主动服务、并行访问、统一存储和易管理等特点,而且有着其他存储结构难以达到的高可扩展性和高性能。通过建立系统广义随机Petri网模型,对BSO-MSS进行性能评价,模拟结果显示无论增加存储对象(Storage Object,SO)还是客户端,系统性能都随之增加。并采用测试工具iozone对系统原型与Lustre系统作对比测试,测试结果表明写性能超过Lustre,读性能略比Lustre好,并验证了BSO-MSS的广义随机Petri网模型。首次将存储系统与元胞自动机相结合,利用元胞自动机的原理,解析BSO-MSS动力演变规律。构建了一个通用框架的BSO-MSSCA概念模型框架,并在此基础上,分析了两种具体元胞自动机模型。基于存储对象负载分配模型是将SO解析为元胞,模拟了一个简单的负载均衡分配的动态变化,高度概括了BSO-MSS的演变过程。基于数据对象访问行为模型则分析数据对象的访问频率对系统的影响,结合数据对象访问的特征和主动性,通过机械学习适当调整数据对象的访问行为频率,使系统朝着稳定方向发展。通过分析基于存储对象的负载分配模型和基于数据对象的访问行为模型的演变过程,可以看出系统具有主动性、共享性、并行性、相关性等特性,是一个自组织管理的对象存储系统。大规模分布式存储系统中,元数据高性能服务、负载均衡以及扩展性已成为一个重要的研究热点。在元数据服务器中,将元数据分解为目录对象和文件对象,目录对象为定位性元数据,提供文件所在位置和访问控制;文件对象为描述性元数据,描述文件的数据特性。每一个元数据服务器(Metadata Server,MDS)负责所有目录对象和自身的文件对象,这样充分利用MDS中Cache,提高Cache的命中率,减少磁盘I/O次数,而且能够动态扩展MDS。同时,以目录对象ID和文件名为关键字的哈希值作为局部元数据查找表(Local Metadata Lookup Table,LMLT)的索引,获得相应的MDS_ID。一旦目录权限改变、更名、移动目录、修改权限等都不会造成元数据的迁移。通过Bloom Filter算法将每个MDS的LMLT压缩成一个摘要,能够实现快速的元数据查找。同时采用主从备三重链式结构的MDS服务,不仅在未提高硬件成本下能够保证系统高可靠性和可用性,而且根据热点访问进行迁移,实现负载均衡。SO是BSO-MSS重要组成单位,它与OSD不同之处是本身具有“接口”与“状态”标识,由数据、属性和方法组成,这样对现有的T10 OSD标准进行了扩充。由于数据对象是通常在一维空间中命名,传统文件系统管理大量数据对象的效率是极其低,采用线性哈希查找算法,由负载因子控制分裂和合并,与传统文件系统的树结构查找相比,哈希法查找时间复杂度为O(1)。同时,针对Ext2文件系统中数据访问至少需两次以上的磁盘操作特性,将数据的块地址和长度链接在一起,作为对象的扩展属性,连同数据对象一起存储到磁盘中,这样无论数据对象大小为多少,磁盘访问次数仅为两次。在BSO-MSS中,负载与众多因素相关,如请求队列长度、CPU处理能力、内存大小、网络带宽、磁盘带宽和磁盘容量等。负载柔性放置策略不仅考虑网络的影响,而且考虑SO之间存在差异,并设置权重,权重大的SO担负较多的负载。依据SO属性中信息统计出负载特征,以系统响应时间为代价,自适应选择SO数目,采用不同大小的分条进行存储,使BSO-MSS具有更高的性能、可扩展性和自适应负载均衡能力。