论文部分内容阅读
随着信息技术的发展,互联网在人们的生活工作中扮演的角色越来越重要,越来越多的人开始使用互联网,各种新的互联网应用如雨后春笋般涌现,如C2C、B2C等电子商务网站、社区交流网站等等,各种挑战也随之浮现,随着用户量的不断增加,其实质就是数据量的增加,各互联网公司服务器集群规模也不断扩大,用来存储与处理这些日益增长的数据,但是当服务器达到一定规模,管理起来就成了一个新的麻烦,尤其体现在大型搜索引擎公司,著名的搜索引擎公司Google因此开发自己的云计算平台,开创了云计算时代。在产业界,各大IT巨头纷纷推出自己的云计算理念及云计算平台,但是都是商业化的公司,很多技术都是保密的。在学术界,云计算成了研究热点,各大高校科研院所也开始投入一部分研究精力。从Apache推出Hadoop这个开源云计算平台项目以来,Hadoop被许多企业拿来应用,得到一致好评。由于Hadoop是对Google公司的云计算平台的一个开源实现,所以将Hadoop云计算平台应用于搜索引擎是最合适不过的了。
本文首先介绍了云计算兴起的背景,对云计算平台的研究现状做了分析,对搜索引擎的现状做了详细的阐述;针对云计算平台Hadoop分布式文件系统和MapReduce并行编程框架做了细致的研究,并对其的特点做出了分析;详细介绍了Hbase的应用。在对搜索引擎的关键技术的研究中,着重对网页爬取技术、中文分词技术做出了分析,介绍了这些技术现阶段研究的进展和遇到的困难,接着介绍了网页去重、键值存储系统Redis、以及网页解析的相关知识。
基于上述的研究与学习,重点针对搜索引擎、分布式文件系统架构,提出了一个面向搜索引擎的云计算平台的设计方案,设计以Hadoop云计算平台为存储与处理支撑搜索引擎的核心功能,网页爬取、索引建立和查询接口。设计该三个核心功能尽量用MapReduce的并行框架进行,并且用Redis来存储URL的PR值,按照高效率、可靠性好、扩展性强构建了一个云平台原型系统。在实现过程中,根据详细设计对网页爬取,索引建立,与查询接口进行了具体实现。并对整个系统进行了集成,通过系列测试,包括功能测试,压力测试,性能测试,并对测试结果进行了分析,表明该云平台系统和研究成果对搜索引擎的广泛使用具有一定的实用价值,为搜索引擎和云计算的研究和应用可提供相应的参考。