论文部分内容阅读
随着人们对数据应用价值理解的不断加深,现今计算机存储系统中海量数据信息的存储、管理和应用能力已经受到了越来越多的重视。近年来各种以直连存储(Direct Attached Storage,DAS)、附网存储(Network Attached Storage,NAS)和存储局域网络(Storage Area Network,SAN)及其衍生技术为基础的海量网络存储系统技术一直是计算机科学与技术领域中所重点关注的研究对象和研究热点。目前在现有的海量网络存储系统的研究领域中还存在两个必须解决的重要问题:(1)海量网络存储系统体系结构的层次划分不清楚,这样就使得各种结构的实现、兼容和演化存在困难;(2)没有充分利用海量网络存储系统体系结构的层次性来实现海量数据的访问性能优化。海量存储网络体系结构的设计问题和海量数据存取访问的性能优化问题对于海量网络存储系统技术的深入研究有重要的理论意义和实际意义。本文从存储系统层次化的体系结构研究视角出发,重点对海量网络存储系统中的层次化体系结构模型、各级缓存局部性强弱的量化方法、页面访问的周期性规律、访问延迟缺失代价缓存管理算法、网络应用环境下的文件大小分布与访问频率和文件访问的动态模式等关键技术问题进行了系统而深入的研究,取得了一些有创新性意义的研究成果。其主要研究工作和创新性成果体现在以下几个方面:(1)提出了一种层次化的海量存储系统分级模型(Hierarchical Mass Network Storage Architecture,HMNSA)和多级缓存加速思想。HMNSA结构主要包含5个层次,分别是存储应用层、存储表示层、存储连接层、存储网络层和存储物理层。通过各个层次之间相互调用服务、提供服务的方式,使用多种存储技术构建海量网络存储系统。在此基础上,设计并实现了一种基于智能网络磁盘存储系统(Intelligent Network Disk Storage System,INDSS)及其文件系统的层次化海量网络存储系统,通过实验验证了层次化体系结构的海量网络存储系统的可行性和正确性。其次,研究了在海量网络存储系统的多层体系结构中设置多级缓存的必要性和可行性,将多级缓存结构从传统的CPU片上缓存——主存储器文件缓存——外存储器硬件缓存向上拓展到了海量网络存储系统的存储服务客户端——存储网络——存储业务服务端。(2)基于HMNSA模型和多级加速思想,在存储表示层提出了一种基于数据本地局部性强弱的缓存调度算法(Locality Strength Algorithm,LSA)。在海量网络存储环境中,数据从存储网络中被读入本地内存,在本地内存为这些数据提供缓存空间以提高处理器访问速度。如何在多用户多进程环境下为不同用户进程分配缓存空间,是影响进程执行效率的重要因素。为此,对局部性强弱的量化描述进行了研究,给出了量化指标及其计算方法。并在此基础上提出了存储表示层缓存的调度算法LSA,该算法可以减少缓存空间频繁调整导致性能下降的颠簸现象。(3)基于HMNSA模型和多级加速思想,在存储网络层提出了一种基于访问周期性和延迟代价的缓存调度算法(Periodicity and Miss Cost,PMC)。当一个应用访问网络存储系统时,该应用请求首先被海量网络存储系统中的存储节点处理,在作者课题组开发的INDSS系统中,这些节点具备数据缓存能力。对这些节点的缓存管理研究表明:如果提高缓存命中率的研究已经逼近极限,则可以考虑减低不命中代价,而不命中代价是由各Cache块的访问延迟决定。PMC算法的设计思想是:利用应用程序访存的周期性现象和不命中代价,尽可能推迟换出访问延迟大的数据块,以免该块被周期重复访问时又要付出较大代价。因此,该算法降低了系统的加权响应时间。(4)基于HMNSA模型和多级加速思想,在存储物理层提出了一种基于统计结果的访问热点数据缓存调度算法(Reallocation based on Distribution and Visit Frequency,RDVF)。对目前主流操作系统的文件大小分布和空间占用、网络文件服务环境下的文件读取请求和视频下载点播进行了统计分析,研究了海量网络存储系统中交换文件、小尺寸文件和访问集中文件进行优化的必要性和可行性。基于目前提出的若干新的存储器件体系,提出了海量网络存储系统的基于统计结果的混合加速存储物理层结构和访问热点数据缓存调度算法RDVF。实验结果表明,提出的RDVF算法可以缩短I/O响应时间和提高数据传输率,能够改善海量网络存储系统的存储访问性能。