基于MongoDB的分布式搜索引擎技术研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:majing1619
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet上的信息量呈现着爆炸性的增长态势。人们面对海量信息并需要从中寻找到自己所要的资源时,搜索引擎已经成了最有效的方式。搜索引擎通过某种策略搜集信息,并对信息加以组织和整理,为客户提供检索服务。搜索引擎技术一直是学术界研究的热点之一。  搜索引擎本身涉及了广泛的知识面,本文通过对搜索引擎的几个关键技术进行梳理和研究,对搜索引擎的背景、发展历史做了介绍,对抓取技术,中文分词算法以及网页索引技术做了进一步的分析和探讨,主要完成以下工作内容:  研究并实现了基于MongoDB的分布式抓取技术。考虑到搜索引擎涉及到大规模的数据量,为了提高系统的性能,必须采用分布式技术。本文结合了MongoDB数据库优越的自动负载平衡机制以及它对海量非结构化数据的支持,研究并实现了基于MongoDB数据库的分布式抓取器,通过多个抓取服务器的协同合作,抓取工作性能稳定且表现优越。  研究并实现了基于改进词典机制的全切分中文分词算法,主要从效率和准确性上对中文分词算法进行了一定的改进工作。对于基于词典的中文分词算法提出了改进词典机制保证其高效性。对中文分词的交叉型歧义的消除提出了将统计和规则结合起来的算法机制。本文实现的中文分词系统符合搜索引擎的使用要求。  最后,本文针对MapReduce编程思想与MongoDB集群的特点,对索引系统的设计做了探讨。
其他文献
随着信息技术的不断发展,计算机网络在过去的几十年间经历了一个蓬勃发展的时期。网络的广泛应用已渗透到日常生活的各个领域,然而由于网络流量和网络,资源分布的不均衡性,伴
复述是用不同方式表达同样的语义,它不仅是人类自然语言中的一种普遍现象,同时对自然语言处理领域的许多研究都具有重要的意义。近年来,复述技术受到了越来越多的研究者的关
目前,与人类识别音乐的能力相比,计算机的识别能力非常有限。数字音乐和互联网技术的快速发展使我们可以获得大量的音乐作品,同时需要更加有效的音乐检索系统。乐器识别在复杂的
云计算预留是指在云计算环境下,利用云计算中大量的丰富资源,为满足用户对云服务的需求,在实际使用服务之前进行必要的接纳测试和预留,使用户在使用服务的过程中获得做够的服务,使
从海量的蛋白质序列数据信息中分析蛋白质的结构和生物学功能是后基因组时代的一个重大挑战。蛋白质折叠模式是描述蛋白质空间拓扑结构的重要概念。开发基于序列的蛋白质折叠
随着网络规模的不断扩大,用户对Internet服务质量要求的不断提高,传统的单播传输方式已经难以满足日益新起的Internet应用对有限网络资源的需要,组播服务作为一种节省网络资
离群数据的检测与分析已经成为数据挖掘领域中一个重要的研究方向,其在金融欺诈检测和网络入侵、疾病预防和控制、灾难气象预报等许多方面都有着广泛的应用。随着研究的深入,低
随着互联网的迅猛发展,电子商务也越来越普及和流行起来。随着信息量的爆炸式增长,在电子商务领域,信息超载问题增加了用户购买所需商品的难度,用户在找到自己需要的商品之前必须
近年来,随着移动通信、移动互联网、智能终端等技术的高速发展,移动上网用户日益普及,加之社会竞争压力的增大,人们渴望能够随时、随地进行任何方式的学习。在此背景下,移动
当今社会,随着互联网的高速发展,信息无处不在。在这个“信息大爆炸”的时代,网络信息技术深刻地改变了人们的生活。如何让人们更全、更准地获取自己想要的信息,是一个亟待解