基于Hadoop的海量文件存储系统的分析与设计

被引量 : 9次 | 上传用户:zhqs1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,互联网的浪潮是一浪高过一浪,信息化、智能化、数据化、海量化愈来愈明显,各种门户网站、电子商务网站亦越来越大型化、集团化,像腾讯、淘宝、百度、新浪等互联网巨头为提供广泛服务,数据存储量已经进入海量模式,并且以爆炸式持续增长。海量存储垂直扩容成本越来越大,对使用商业存储的企业来说负担越来越重,甚至已经成为制约企业发展瓶颈,实现高容量、支持高并发的海量文件存储系统已经迫在眉睫。通过实际需求分析搭建基于Hadoop的分布式存储系统架构,该模型以Hadoop的HDFS分布式文件系统底层文件存储为支撑,以廉价Linux集群硬件为基础,通过HDFS实现的特有的高相应、高容错、高并发支持以及集群内数据均衡来架构我们自己的海量文件存储,对外提供高可靠的服务。Hadoop中的HDFS分布式文件系统和MapReduce并行编程框架,为我们设计大规模数据存储架构提供了有力的技术支撑,最终实现在高并发、高负载的环境中对文件进行高效访问。通过缓存设计、负载均衡设计提高系统应对高并发情况,优化文件读写。海量文件存储势必会带来大规模的文件元数据存储,采用HBase分布式列式数据库存储文件元数据,满足对存储高容量、高效性要求,通过考虑文件类型、文件所属应用等因素,设计HBase行键,文件尽可能存储在物理位置较近的集群节点内,减少磁盘寻道、跨界点、跨网络寻址,提高文件访问效率。搭建Hadoop集群,部署各个应用服务器,进行高并发压力实验,采集实验数据,并对实验数据加以分析,验证系统架构是否可以实现预定目标。本课题着重解决高并发、大容量带来的挑战,能够实现水平扩展容量,降低存储成本,并能提供高效服务。该系统利用目前比较成熟的分布式技术实现文件存储和处理,搭建Hadoop集群、部署应用服务器、文件服务器、缓存服务器等。通过测试数据分析模型的实用效果,检验所提出的架构模型是否能支持海量文件存储和管理。
其他文献
对α-环糊精葡萄糖基转移酶(α-CGTase)突变体Y89D制备α-环糊精的影响因素进行初步研究。其因素包括淀粉种类(马铃薯淀粉、玉米淀粉、木薯淀粉、可溶性淀粉)、加酶量、反应
<正>建设秀美安义是为了促进该县农业产业结构调整,提高农产品附加值,进一步提高农民收入。通过秀美安义建设,把该县打造成为南昌环城游憩带上的著名乡村休闲旅游胜地,使之成
研究背景:乙型肝炎病毒感染(hepatitis B virus, HBV)是当前全球慢性肝病的最主要原因,也是全世界的健康威胁。全球大约有20亿人曾经感染过HBV,其中3.5亿人是慢性HBV感染。全
利用傅里叶红外光谱法分析比较具有代表性的黑茶的5个样品。结果表明:各样品由于原料老嫩和具体加工工艺差异而使它们所含化学成分及相对含量不同,具有其各自的特征红外光谱;
伴随着我国经济的高速发展,建筑工程项目的规模不断扩大。在工程建设过程中人员、设备、材料、环境等发生的变化;设计、方法、资金等方面出现的问题均会影响建设项目的有效实
介绍了梨果贮藏期间的主要病害,并从栽培技术措施、钙处理、保鲜剂、低温冷藏、气调贮藏等方面,阐述了影响梨果贮藏保鲜的因素。结果认为,果实套袋、适时采收、采后钙处理、
文本类型理论是莱思在70年代初提出的翻译批评和评估模式中的基本理论。莱思根据布勒的语言功能模式把文本划分为三种主要的类型,即表情型、信息型和操作型;并建议根据文本功
以真空油炸温度、分阶段干燥的水分转换点、后期热风干燥阶段温度为影响因素,以桃脆片含油率为评价指标进行响应面优化分析,得出联合干燥最佳工艺参数为切片厚度2mm、漂烫3mi
在房地产开发的全过程管理中,工程质量管理已成为支柱管理阶段。建设工程的质量管理是否到位,直接关系着整个开发项目的质量、进度、投资成本、资本收益、安全文明等各方面能
为了提高溶菌酶对革兰氏阴性菌的抑菌性能,研究蛋清溶菌酶和渗透剂甘氨酸、EDTA-Na2复配对大肠杆菌ATCC25922、DH5α的抑菌效果,及细胞外膜渗透性和细胞表面形态的变化。结果