论文部分内容阅读
目前,互联网的浪潮是一浪高过一浪,信息化、智能化、数据化、海量化愈来愈明显,各种门户网站、电子商务网站亦越来越大型化、集团化,像腾讯、淘宝、百度、新浪等互联网巨头为提供广泛服务,数据存储量已经进入海量模式,并且以爆炸式持续增长。海量存储垂直扩容成本越来越大,对使用商业存储的企业来说负担越来越重,甚至已经成为制约企业发展瓶颈,实现高容量、支持高并发的海量文件存储系统已经迫在眉睫。通过实际需求分析搭建基于Hadoop的分布式存储系统架构,该模型以Hadoop的HDFS分布式文件系统底层文件存储为支撑,以廉价Linux集群硬件为基础,通过HDFS实现的特有的高相应、高容错、高并发支持以及集群内数据均衡来架构我们自己的海量文件存储,对外提供高可靠的服务。Hadoop中的HDFS分布式文件系统和MapReduce并行编程框架,为我们设计大规模数据存储架构提供了有力的技术支撑,最终实现在高并发、高负载的环境中对文件进行高效访问。通过缓存设计、负载均衡设计提高系统应对高并发情况,优化文件读写。海量文件存储势必会带来大规模的文件元数据存储,采用HBase分布式列式数据库存储文件元数据,满足对存储高容量、高效性要求,通过考虑文件类型、文件所属应用等因素,设计HBase行键,文件尽可能存储在物理位置较近的集群节点内,减少磁盘寻道、跨界点、跨网络寻址,提高文件访问效率。搭建Hadoop集群,部署各个应用服务器,进行高并发压力实验,采集实验数据,并对实验数据加以分析,验证系统架构是否可以实现预定目标。本课题着重解决高并发、大容量带来的挑战,能够实现水平扩展容量,降低存储成本,并能提供高效服务。该系统利用目前比较成熟的分布式技术实现文件存储和处理,搭建Hadoop集群、部署应用服务器、文件服务器、缓存服务器等。通过测试数据分析模型的实用效果,检验所提出的架构模型是否能支持海量文件存储和管理。