论文部分内容阅读
随着Internet的飞速发展,Web的信息量越来越大,通用搜索引擎在信息采集、存储等方面面临更大的挑战。此外,由于通用搜索引擎面向所有的用户,力争在返回结果上做到面面俱到,而包罗万象的结果显然不能满足用户精确搜索的需求,因此,面向专业领域的搜索引擎即垂直搜索引擎应运而生。 网络蜘蛛是搜索引擎的重要组成部分。通用搜索引擎的网络蜘蛛(简称通用网络蜘蛛)的目标是要发现和下载尽可能多的网页,以使搜索引擎能回答更多的用户查询。而垂直搜索引擎的网络蜘蛛(简称主题网络蜘蛛)的目标是在尽可能少地遍历Web的前提下,尽可能多地发现与主题相关的网页。因此,如何设计一个好的主题网络蜘蛛是构建垂直搜索引擎的关键。本文主要研究的是面向垂直搜索引擎的主题网络蜘蛛爬行技术。主题网络蜘蛛在爬行过程中要解决以下几个关键问题:(1)怎样准确判断一个已经爬取的网页是否与主题相关;(2)如何决定待爬行URL的访问次序以提高主题网络蜘蛛的收获比;(3)怎样穿越隧道以提高主题网络蜘蛛的召回率。 对于问题(1)本文分析了页面主题判别中的两种算法:主题中心向量法和基于文本分类器的页面主题判别算法的优缺点,并采用文本分类器中的朴素贝叶斯分类器作为本文的页面主题判别算法;对于问题(2)本文提出了基于分块提取链接上下文的主题预测算法,将网页分块技术应用到链接上下文提取,这样提取的链接上下文对于链接主题的预测具有较高的准确度;对于问题(3)本文改进了隧道技术,提出了基于主题相似度的隧道技术并设计了一种基于主题相似度指导网络蜘蛛穿越隧道的爬行算法。所改进的隧道技术能有效的在WWW上鉴别隧道页面和非隧道页面,从而在保证一定收获比的前提下,使主题网络蜘蛛具有较高的召回率。 最后设计实现了一个主题网络蜘蛛系统,并在该系统中对本文提出的基于分块提取链接上下文的主题预测算法和基于主题相似度指导网络蜘蛛穿越隧道的爬行算法分别进行了主题爬行实验。