面向搜索引擎的云计算平台设计与实现

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:yinfeiyangfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网在人们的生活工作中扮演的角色越来越重要,越来越多的人开始使用互联网,各种新的互联网应用如雨后春笋般涌现,如C2C、B2C等电子商务网站、社区交流网站等等,各种挑战也随之浮现,随着用户量的不断增加,其实质就是数据量的增加,各互联网公司服务器集群规模也不断扩大,用来存储与处理这些日益增长的数据,但是当服务器达到一定规模,管理起来就成了一个新的麻烦,尤其体现在大型搜索引擎公司,著名的搜索引擎公司Google因此开发自己的云计算平台,开创了云计算时代。在产业界,各大IT巨头纷纷推出自己的云计算理念及云计算平台,但是都是商业化的公司,很多技术都是保密的。在学术界,云计算成了研究热点,各大高校科研院所也开始投入一部分研究精力。从Apache推出Hadoop这个开源云计算平台项目以来,Hadoop被许多企业拿来应用,得到一致好评。由于Hadoop是对Google公司的云计算平台的一个开源实现,所以将Hadoop云计算平台应用于搜索引擎是最合适不过的了。   本文首先介绍了云计算兴起的背景,对云计算平台的研究现状做了分析,对搜索引擎的现状做了详细的阐述;针对云计算平台Hadoop分布式文件系统和MapReduce并行编程框架做了细致的研究,并对其的特点做出了分析;详细介绍了Hbase的应用。在对搜索引擎的关键技术的研究中,着重对网页爬取技术、中文分词技术做出了分析,介绍了这些技术现阶段研究的进展和遇到的困难,接着介绍了网页去重、键值存储系统Redis、以及网页解析的相关知识。   基于上述的研究与学习,重点针对搜索引擎、分布式文件系统架构,提出了一个面向搜索引擎的云计算平台的设计方案,设计以Hadoop云计算平台为存储与处理支撑搜索引擎的核心功能,网页爬取、索引建立和查询接口。设计该三个核心功能尽量用MapReduce的并行框架进行,并且用Redis来存储URL的PR值,按照高效率、可靠性好、扩展性强构建了一个云平台原型系统。在实现过程中,根据详细设计对网页爬取,索引建立,与查询接口进行了具体实现。并对整个系统进行了集成,通过系列测试,包括功能测试,压力测试,性能测试,并对测试结果进行了分析,表明该云平台系统和研究成果对搜索引擎的广泛使用具有一定的实用价值,为搜索引擎和云计算的研究和应用可提供相应的参考。
其他文献
命名实体识别与翻译是自然语言处理的一个基础性的工作,同时也是很多应用中的关键性技术,如信息检索、信息抽取以及机器翻译等。近年来,大量以人名、地名、机构名等命名实体
随着无线通信技术以及电子技术的飞速发展,无线传感器网络(Wireless Sensor Networks)技术得到了深入的研究和发展,针对低成本、低功耗、高性能并且可长期运行的传感器节点的
学位
随着无线移动通信技术的发展,无线多跳网络(Wireless Multi-hop Networks)引起越来越多研究人员和工业界的关注。与现有基于固定基础设施的无线接入网络相比,无线多跳网络具
近年来,中国机械装备制造业有了高速的发展,越来越多的机械装备制造企业走出国门,产品远销至世界各地。然而中国机械装备制造业面临诸多问题,机械装备制造业的现状是产业大而
随着计算机相关技术的日益进步和矿山、石油、城市地质调查、岩土工程等地质领域的迫切需求,科学计算、三维可视化及相关分析功能已经越来越成为行业专家在解决专业问题时不可
办公是企业和各类单位机构日常最频繁的行为,也是最基础和重要的工作。办公效率的高低直接决定企业运作的效率,直接关系企业的发展步伐,直接关系到企业的发展和生存。在竞争日趋
随着现代社会的发展,计算机科学技术正在成为主导当今社会的绝对力量。在现代计算机科学技术的发展过程中,通信技术和互联网技术已经成为发展现代社会的信息交换的主要技术,各种
随着现代科学技术的发展以及国家卫星体系的逐步形成,海量的、高空间分辨率、多波段数据的遥感图像数据日益增多,对遥感图像数据快速准确的浏览,并在此基础上进行图像的分析和处
随着视频监控网络被大量应用到各种公共场所,如商场,银行,交通路口,车站等,如何从海量视频监控数据自动提取有用信息变得越来越重要。视频监控网络一般采用多台摄像机覆盖多