论文部分内容阅读
Web信息量的急剧猛增以及广大互联网搜索用户信息检索需求的不断提升,使得搜索引擎技术由原来的面向全体互联网用户,提供公用信息服务的通用搜索引擎发展到面向特定领域,为用户提供专业信息服务的垂直搜索引擎。相应地,在通用爬虫技术研究的基础上,也需要进一步对聚焦爬虫技术进行研究。论文首先对搜索引擎和垂直搜索引擎、通用爬虫和聚焦爬虫的相关概念、体系结构及工作原理做出了介绍和讨论。然后,从抓取目标的描述、网页分析算法和网页搜索算法三个角度对传统的聚焦爬虫关键技术进行了分析,为进一步的研究打下了铺垫。论文重点对基于领域本体的聚焦爬虫技术进行了深入研究。主要的工作与论点如下:(1)论文讨论了被用作聚焦爬虫主题模型的领域本体的设计、构建和更新方法。从路径距离、语义重合度、语义深度、语义密度和概念属性几个角度,研究并改进了领域本体概念语义相似度的计算方法。(2)论文提出一种基于领域本体概念语义相似性的主题相关度计算方法,通过对向量空间模型中的网页文档向量进行语义扩展,使聚焦爬虫对网页的分析具备了一定程度的概念语义特性,提高了聚焦爬虫的查全率和查准率。(3)论文提出一种面向主题的改进的Hits算法,它从URL字符串、锚文本、扩展锚文本及父页面主题相关度几个方面来分析链接基于内容的主题相关性。然后,将基于内容的分析加入到传统的基于网络链接结构的Hits算法中,使其在综合考虑网页内容和网络链接结构的前提下得到了很大程度的优化,削弱了主题漂移现象。(4)针对Web Community和隧道现象所造成的最佳优先算法只能做到“局部最优”的现象,论文提出一种基于隧道技术的最佳优先算法。算法引入URL优先队列和多个URL候选队列的概念,通过暂不放弃主题无关URL以发现更多主题相关URL的策略,使得最佳优先算法在某种程度上跨越了网络隧道,初步具备了“全局最优”的特点。