分布式存储系统建模技术研究

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:markhero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:分布式存储系统的I/O性能影响着分布式系统的执行效率。由于影响系统性能的潜在因素错综复杂,所以分布式存储系统的性能和建模技术一直是重点和难点。本文深入分布式存储系统建模技术研究现状和关键问题。为分布式存储系统的设计、调优和评估起到积极的指导作用。
  关键字:分布式存储系统;数据存储;建模技术;性能特征
  中图分类号: TP311
  信息资源的爆炸性增长,对存储系统的容量、可扩展性、数据可用性以及I/O性能等方面提出更高的要求。近年来,虽然计算、传输和存储三大IT基础设施都得到了飞速的发展,但相对于计算(数据处理)和传输而言,存储技术相对发展缓慢,这主要是由于在I/O子系统方面缺乏相应的提高,导致I/O成为存储系统的主要瓶颈。分布式存储系统的构造是非常昂贵和复杂的,如果系统的参数没有配置好,将直接影响存储性能,那成本就更高了。因此,如何优化分布式存储系统的设计,评估分布式存储系统的性能,调整分布式存储系统的性能引起存储工业界和研究机构越来越多的关注。因此,分布式存储系统性能建模技术成为一个极具挑战性和实际意义的课题。性能建模技术能指导分布式存储系统设计,优化和评估系统的性能,降低成本。分布式存储系统是应对海量数据存储,提高I/O性能,降低企业运维成本的有效方案。因此,分布式存储系统的优化设计和性能研究具有很大的现实意义和科研价值,得到了学术界和工业界的广泛关注。
  1 分布式存储系统性能和建模技术
  目前分布式存储系统性能和建模技术的研究主要集中在以下4个方面:数据分布策略建模技术;数据流和元数据建模技术;性能可靠性建模技术;结合负载特征的性能建模技术。
  1.1 数据分布策略建模技术
  根据应用类型和I/O特点,研究优化数据分布策略,增强用户空间和核空间的数据感知能力,提高数据访问效率。Yu等发现文件分布模型对聚合I/O带宽有着显著的影响,提出一种基于用户视角的数据分布策略[1];综合考虑磁盘空间,磁盘I/O速率,已存在数据对象数量等因素的智能条带化存储是潜在的发展趋势。现有的主流分布式文件系统,通常分为客户端,元数据服务器,数据存储节点。主要采用的技术有零拷贝,提前读,写回,优化通信协议,小数据的快速内存访问等。文献[2]描述了一个准确、有效的方法来对分布式存储系统性能进行建模和预测。对用户响应时间,系统吞吐量,服务器平均使用率等性能指标进行了分析和评估。优化数据访问路径往往得从分布式存储系统的底层架构出发来设计的,同时也具有应用相关性。
  1.2 数据流和元数据建模技术
  由于不同的应用对分布式存储系统的要求不同,分布式存储系统所支持的上层应用也呈现出各异的性能的差别。应用的I/O特征对分布式存储系统的影响较大。如文献[3]引入了分布式存储系统的队列网络模型,并对模型参数进行了评估。应用Jackson网络来预测系统配置变更时的性能变化。文献[4]提出了一个Jackson网络的瞬态模型,应用于任意系统规模和有限负载的应用场景。
  元数据建模技术的目标包括:提高元数据的存储能力;优化元数据的查询效率;增强元数据的容错性和一致性等等。文献[5]提出了ParFiSys 机制,来提升分布式存储系统的性能。利用映射方法,该机制能对几种常见类型的分布式存储系统提供透明的访问。并对分组管理,并行化,资源预分配,读/写缓存策略等相关性能因子进行了研究。文献[6]对分布式存储系统中的负载均衡问题进行了研究,提出了应用于大规模I/O服务器的动态、自适应的负载均衡策略。目前,随着元数据的海量增加,如何有效的组织,存储海量元数据,及如何提高海量元数据查询响应时间,成为研究热点。
  1.3 性能可靠性建模技术
  性能可靠性建模技术研究的主要目标是:在系统规模增大的同时,如何保证系统软硬件正常运转提供统一的服务,如何扩充系统规模来取得更好的性能和容量。针对系统资源的工作负载需求,Anna Ha?提出一些用于提高分布式存储系统性能可靠性的策略,包括文件复本、文件迁移、程序迁移等策略[7]。扩展系统性能的可用性和可靠性研究对一些特定的关键领域尤为重要。
  1.4 结合负载特征的性能建模技术
  这方面的研究侧重于通过评估系统的性能,挖掘潜在的性能因素及特征,预测及指导系统的性能优化。主要的难点是:分布式存储系统结构复杂,很难根据特定的应用,选择所需的性能因素;系统的性能预测缺少必要理论支持,基本是从实验出发,通过系统的性能表现,提出一些经验法则或预测模型;如何有效的结合应用特征,建立相关的分析预测模型,迎合较为复杂的应用环境需求。针对不同的应用场景,提出若干针对分布式存储系统的性能预测模型,如基于灰色理论的单因子性能预测方案[8],基于机器学习的性能预测模型[9]和相对预测模型[10],这些模型分别从不同的应用场景来分析和预测分布式存储系统的性能,取得了较好的预测效果。
  2 结束语
  如何优化分布式存储系统的设计,评估分布式存储系统的性能,调整分布式存储系统的性能得到了存储工业界和研究机构越来越多的关注。分布式存储系统建模技术是一个极具挑战性和实际意义的课题。其研究成果能指导分布式存储系统设计、优化和评估,降低成本,对云计算环境下的海量数据存储设计有重要的意义。研究分布式存储系统建模技术的基本思路总结如下:首先要深入探讨分布式存储系统性能因素及分布机理;其次,结合应用特征、分布式存储系统架构及设计偏向,系统地研究不同性能因素对系统整体性能的潜在影响,挖掘出不同性能因素间内在的性能相关性及影响,建立自适应的性能模型及预测方案。
  参考文献:
  [1]Yu W,Oral H S, Canon R S. Empirical Analysis of a Large-Scale Hierarchical Storage System [C]//the 14th International Euro-Par Conference on Parallel Processing, LNCS 5168, 2008:130-140.   [2]Rakesh Kushwaha. Methodology for predicting performance of distributed and parallel systems[J],Performance Evaluation, 1993,72(10): 189-204.
  [3]Anna Ha?. Modelling parallel access to shared resources in a distributed file system using queueing networks[J]. Journal of Systems and Software, 1986,6(1): 61-69.
  [4]Ahmed M. Mohamed, Lester Lipsky, Reda Ammar. Modeling parallel and distributed systems with finite workloads[J]. Performance Evaluation, 2005,60(1):303-325.
  [5]J.Carretero,F.Pérez, P. de Miguel, F. García, L. Alonso. Performance increase mechanisms for parallel and distributed file systems[J]. Parallel Computing, 1997,23(4):525-542.
  [6]Bin Dong, Xiuqiao Li, Qimeng Wu, Limin Xiao, Li Ruan. A dynamic and adaptive load balancing strategy for parallel file system with large-scale I/O servers[J]. Journal of Parallel and Distributed Computing, 2012,72(10): 1254-1268
  [7]Anna Ha?. Performance-reliability issues in distributed file systems[J]. Journal of Systems and Software,1986,6(3): 219-224.
  [8]Tiezhu Zhao, Verdi March, Shoubin Dong, Simon See. Performance Evaluation of Parallel File System Based on Lustre and Grey Theory[C]. The 9th International Conference on Grid and Cloud Computing (GCC2010), 2010,pp.118-123.
  [9]赵铁柱,董守斌,Verdi March, Simon See.基于机器学习的并行文件系统性能预测[J].计算机研究与发展,2011,7,48(7):1202-1215.
  [10]赵铁柱,董守斌,Verdi March, Simon See. 面向并行文件系统的性能评估及相对预测模型[J].软件学报,2011,9,22(9):2206-2221.
  作者简介:赵铁柱(1983-),男,湖南娄底人,博士,助理研究员,主要研究方向:分布式存储技术、云计算等。
  作者单位:东莞理工学院 工程技术研究院,广东东莞 523808
  基金项目:广东省自然科学基金资助项目(S2012040007746);东莞理工学院博士科研启动基金项目(ZJ130604)。
其他文献
经上海市教委批准,上海高校一流学科(B类)上海师范大学“中国语言文学”学科建设已经启动。上海师范大学中国语言文学学科经过几十年的积累,具有很强的队伍基础和学术优势。早在2
随着计算机的快速发展和广泛应用,越来越多的信息以计算机为载体进行存储,越来越多的信息通过网络传播到世界各地,致使计算机网络信息数量多且类别繁杂。再加上计算机网络信息有
摘 要:随着网络技术的进步与不断普及,医院信息化也在不断地推进,信息系统也越来越健全,传统的工作流程与工作模式被突破,而医院统计工作作为医院重要的管理核心部门也发生极大变化,怎样在信息化条件下展开医院统计工作,医院相关部门要发挥统计工作监督、管理与咨询重要职能,是医院统计者应该考虑的首要问题。为妥善完成信息化条件下的医院统计工作,医院要加强医院统计基础性、制定构建统计工作制度、推出统计信息服务平台
随着经济的快速发展,人类已经进入了互联网的新时代,人们通过互联网进行着各种工作,互联网已经成为人们生活中不可分割的一部分。美国最先发明了电子计算机,将人类带入了计算
在高职教育快速发展、多媒体教室迅速推广的新形势下,针对当前高职院校多媒体教室管理和维护存在的问题,结合笔者多年的管理经验,从总结归纳多媒体设备常见故障及处理办法,加强教
随着采供血业务对信息系统的依赖程度越来越高,信息安全问题日益突现,本文以《计算机信息等级划分标准》(GB17859-1999)为依据从技术角度探讨信息安全等级保护技术在采供血机构
后现代新媒体是一个显在的颠覆者和建设者,它在解构传统的文学法则与文学秩序的同时也必然会建构当代的文学法则与文学秩序,在颠覆传统的文学场的同时也必然会建构当代的文学
"碎片化"是当前大众阅读最显著的特点之一。长久以来"深度翻译"是中国典籍对外翻译和传播的主要策略。然而这一学者型翻译策略过于依赖注释和解说等副文本策略,在相当程度上
摘 要:近年间,我国的计算机和网络发展的异常迅猛,计算机教学逐渐成为各个学校非常关注的教学工作。如何才能将计算机教学质量提上去呢?学生认真的学习是一方面的因素,此外,任教老师还需具备专业的计算机知识、拥有科学合理的教学手段,然后老师的“教”和学生的“学”之间形成融洽的结合,才能将计算机教学的效率提高上去。为了提高农村职校计算机的教学质量,对其师资力量进行专业的培训就成为了迫在眉睫的事情。  关键词
现如今,随着科学技术的不断发展,网络技术已经应用到了各行各业。计算机自动化技术的应用也十分的广泛,尤其是应用于部队的管理运营中。那么,现如今计算机自动化应用于运营管理的