论文部分内容阅读
随着互联网信息的急剧增长,以“广、泛、深”为特点的通用搜索引擎返回的查询结果已经不能够满足不同领域、不同背景的用户查询特定主题信息的需求,因此垂直搜索引擎应运而生。作为垂直搜索引擎的核心组成部分——主题爬虫抓取网页的方法直接影响了垂直搜索引擎的性能。传统的主题爬虫方法多基于特征词集来描述主题,忽视了特征词之间的语义关系,降低了对主题的描述性;网页分块只提取了相关文本块,而没有考虑相关链接块;候选链接优先级预测多数只考虑文字内容评价或链接结构评价中的一种,对于所有候选链接优先级要么设为统一的值,要么分别进行相关性计算,计算量较大;传统的隧道技术会导致主题不相关的网页数急剧增长,影响主题爬虫的准确率。针对以上不足,提出一种基于主题相关概念和综合价值的主题爬虫方法,主要包括:1)通过ODP的分类树获取主题相关概念集合,然后结合主题描述文档建立主题向量来描述主题,考虑了主题概念的相关概念,增强了主题的描述性。2)利用网页分块来过滤噪声,根据不同类型的网页,提取不同的相关块文本来计算主题相关性,很好地解决了由于噪声信息的影响而导致的网页主题相关性计算不准确。3)用文字内容和R-HITS算法相结合的方法预测候选链接优先级。提取网页分块后的相关链接块,将其中的链接作为候选链接,并将其划分为高相关链接、低相关链接、普通链接三个等级,将高相关链接的优先级赋为最大值,直接丢弃低相关链接,对于普通链接则用网页内容文本、块文本、锚文本以及由R-HITS算法计算出的链接结构分数四个要素来预测其优先级。4)在隧道技术的基础上,将所有主题不相关的网页URL插入不相关URLs队列,隧道穿越时如果队列中相同站点的URL个数超过上限值,则不再将此站点中URL加入到队列,这样缓解了主题不相关网页急剧增加的问题。最后,将准确率和信息量总和作为评价指标,论证了本文提出的主题爬虫方法相对于其它方法的优势。实验结果表明,本文提出的主题爬虫方法有更高的准确率和信息量总和。此方法在垂直搜索引擎的主题网页采集方面有很好的应用前景和较高的实用价值。