论文部分内容阅读
近年来,随着互联网的快速发展,网络信息呈指数级的增长,这种信息量的飞速增长对通用网络爬虫和搜索引擎呈现了空前的挑战,越来越多的人希望能够快速且有效地找到自己所需要的信息。聚焦爬虫是一种面向主题的信息搜集系统,可以根据用户需要从互联网上自动搜集到主题相关信息,在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。 传统的聚焦爬虫抓取的目标是与某一特定主题内容相关的网页,而在有些应用中,如网络目录,更多的是给用户提供主题相关网站。随着互联网信息的日益增多,目前靠人工来维护的网络目录越来越显得低效和不可行。为了实现具有自动维护功能的网络目录,将抓取目标锁定为主题网站的网站聚焦爬虫应运而生。 网站聚焦爬虫是在现有聚焦爬虫的基础上加入网站选取和分类机制,从用户提供的种子网站开始,以Best-first原则获取最佳候选网站并开始新一轮的爬行分类。本文进行了面向中文网站的网站聚焦爬虫的设计与实现,详细介绍了其各部分的功能和设计原理。实验表明该爬虫能有效的获取主题网站,为实现自动网络目录提供了一种解决方案。 与传统网站聚集爬虫不同的是,本文介绍的网站聚集爬虫引入了一种改进的外部爬行策略,即在传统外部爬行策略只考虑平均跨站链接权重的基础上引入网站的跨站链接数以进行候选网站的选取。实验结果表明,改进外部爬行策略后的网站聚集爬虫能够优先访问候选网站队列中的权威主题网站,并能进一步提高获取主题网站的准确率。