主题搜索引擎网络爬虫的设计与实现

被引量 : 7次 | 上传用户:sfol001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎作为一种信息检索技术,在当今互联网时代有巨大的应用,与此同时,也有较为广阔的发展前景,并且已经成为互联网行业新的经济增长点。就搜索引擎的搜索内容相关度而言,可以将搜索引擎分为两种,分别为传统的搜索引擎和垂直搜索引擎。传统的搜索引擎,即通用搜索引擎,是一种无差别的以搜索关键词为主要实现方式的搜索技术,这种搜索技术已经在当今互联网发挥巨大的作用;然而,由于其对于特定内容信息检索的相对低效性、较低的准确性以及搜索深度不够等缺点,已经渐渐不能满足人们日益增长的实际需要;而垂直搜索引擎是一种面向主题的搜索引擎技术,而且已经成为互联网行业的研究热点之一。与通用搜索引擎的爬虫相比,垂直搜索引擎的爬虫对信息的抓取更有针对性,往往只抓取某一个类别的网页。垂直搜索引擎的爬虫抓取方式通常有两种:一种叫做主题爬取,它广泛而全面的抓取,再从抓取结果中提取出确定类别的链接,用作下一次抓取的链接;另一种则直接以确定类别的网页链接作为抓取队列中的第一批链接(又被称为种子),再从中按步骤抓取这个类别的信息。最后抓取到的信息被转化为结构化信息加以保存。本论文主要围绕以下几个方面的工作展开:首先,对近年来相关的技术研究成果进行了分类归纳,并对主流技术进行了综述和相对详细的技术介绍。其次,从软件设计的角度,对垂直搜索爬虫应用特点进行了需求分析,提出了一种基于朴素贝叶斯分类方法的垂直搜索爬虫的架构,对垂直搜索爬虫进行了概要设计,并结合了现有的Heritrix网络爬虫框架对垂直搜索爬虫进行详细设计。本论文中设计的垂直搜索爬虫具备良好的可扩展性以及优秀的耦合性等特点。用户通过对垂直搜索爬虫的信息抓取规则进行修改,可以使垂直搜索爬虫按照用户的意愿对网页进行基于特定信息类别的有选择抓取,并得到用户指定的网页结构化信息。再次,结合朴素贝叶斯分类算法的基本原理,对基于朴素贝叶斯算法的分类模型进行了初步建模,对分类器模块进行了设计,并在最后实现了基于朴素贝叶斯算法的文本分类器。最后,对设计的主题爬虫进行了编码实现,并且通过实际抓取网页信息,比对搜索结果,对实现的垂直搜索爬虫进行了测试,验证了本论文设计的主题爬虫的搜索准确性和实用性。
其他文献
随着我国社会的不断发展、科技的进步,人们生活质量有了很大的提高,对于建筑行业的需求也有了很大的提升。为了更好的保证施工建设的质量,相关工作人员应做好对于建筑拱结构
元分析方法是对传统综述的一种改进,能够定量和定性分析以往的研究成果,具有全面性和系统性等优势。本文是利用元分析方法,对供应链绩效评价指标的综述研究。在全面的文献来
巴洛克艺术产生于16世纪下半期,它的盛期是17世纪,最早产生于意大利,巴洛克意味着运动、追求新奇、热衷于无穷、不安和对比、以及各种艺术形式的大胆融合。巴洛克艺术一反文
近年来,城市农民工群体内部的代际分化已经形成,新生代农民工成为农民工群体的主力。本文提出了适用于新生代农民工的“心理-社会/经济-心理”的新框架。在此基础上对新生代
将半导体激光二级管(LD)发出的光更高效地注入到光纤中是光纤激光器与光纤放大器研究的先决条件.半导体激光二级管包括二极管单管、条形巴、二维堆栈和二极管阵列等,其各自的
2005年联合国提出了金融发展新方向——普惠金融,即关注贫困人口和小企业金融产品和服务的获得,以及"微型金融"地位的确定。我国普惠金融的发展与世界普惠金融的发展存在较大
译者在翻译中是客观存在,而非隐形的。报刊英语翻译中译者的主观能动参与作用更应得到充分发挥。本文分析列举了报刊英语中"中国特色"内容的翻译策略有阐释和替代,更进一步从
在分形性质非退化的前提下,城市规模(S)与产出(Y)之间具有双对数关系Y=a+bS,式中b为具有广义分维性质,且一般b>1。这暗示,在正常情况下,城市规模越大,城市的人均产出一般也就
本文探讨了汉译英中如何通过情态补充的方式来获得语气隐喻的情态意义。本文对比了英汉两种语言语气隐喻的句法表现模式、语气标记语和语气的强弱三个方面的异同。这三个方面