论文部分内容阅读
随着互联网技术,信息化技术的高速发展以及全面普及,世界已经由互联网时代步入互联网+时代。各行各业,各种门户网站,电子商务网站每天都在产生各种大量的数据,数据量呈现井喷式的增长。对于海量数据的存储,进行垂直扩容的成本已经越来越大,这对于使用商业存储的企业来说负担已经变得越来越重,甚至已经成为制约很多企业发展的关键问题。要解决此问题,设计并实现高容量,支持高并发的大数据存储系统就变得愈来愈重要。直面大数据时需要解决三个主要问题:存储问题,分析问题,以及管理问题。存储是对数据进行操作的前提,所以解决数据的存储问题是重中之重。所以针对此问题,本文提出设计并实现一种基于Hadoop的分布式数据存储系统,使用Hadoop作为分布式的框架,通过该框架将多台普通机器组成集群,利用整个集群的存储空间实现一个分布式数据存储系统。传统存储系统主要是集中存储,将数据统一存储在一台机器或者一个服务器上,这样的存储方式具有很多问题,如遇机器故障则数据的完整性就得不到保障,本文提出一种分布式的策略,将数据分布存储,并且通过对数据进行冗余操作来保障数据的安全性可靠性以及完整性。首先对分布式理论以及分布式存储系统的应用现状以及关键技术进行分析和介绍。然后基于分布式的思想,设计并实现本文提出的基于Hadoop的分布式数据存储系统,在Hadoop的框架下部署搭载Linux系统的集群。在对集群进行可行性进行测试基础上,对文件数据的存取功能进行实现,然后结合实际问题对系统进行优化,最后对系统性能进行测试。通过对系统的测试以及与传统存储方式的对比测试,证明本文提出的分布式数据存储系统可以对大量的数据进行存储工作,并且可以保证数据的完整性,可靠性等,通过对系统的优化,在性能上也有巨大的提升。