论文部分内容阅读
数字图书馆的出现给人们生活带来了极大的改善,它将图书信息进行数字化存储于计算机中,通过计算机网络进行传播,使得图书信息资源共享,这在人们的各个生活领域都起到了非常重要的作用。经过十年左右,数字图书馆的建设工作取得了一定的成就,在一定程度上满足了人们个性化、知识化的文献信息需求,它使得信息存储空间大大缩小、信息检索更加方便,达到了信息远程传播、信息共享的目的。随着计算机网络、互联网、信息数字化、信息存储技术的快速发展,信息资源与日俱增,越来越多的信息被存储下来,然而随着数字图书信息的剧增,数字图书馆在存储、检索、安全、系统维护等方面出现了一系列问题,这导致了数字图书馆的发展出现了瓶颈。本文分析了数字图书馆出现的一些问题,对云计算体系架构进行了深入的研究,提出了一种基于Hadoop的数字图书馆的构建思想。Hadoop是云计算的开源实现框架, Google公司提出了GFS和Mapreduce编程思想,这极大的改善了Google公司处理海量数据信息。针对Google公司的GFS和Mapreduce, Apache开源组织开发了一个分布式计算开源框架一—Hadoop,本质上是Google公司Mapreduce的Java实现,它让程序自动分布到一个由普通机器组成的超大集群上并发执行。本文对Hadoop体系结构进行了深入的研究,分析了Hadoop的实现机制。在此基础上,设计了基于Hadoop的数字图书馆系统,并对其中的一些主要功能模块进行了实现,在本文的最后详细介绍了Hadoop的实验环境构建,并对Hadoop处理大规模数据进行了分析。