论文部分内容阅读
互联网的飞速发展使得其中的信息呈爆炸性增长,但互联网中的信息由于其本身的无结构性使人们很难找到自己有用的资源。如谷歌、百度等通用搜索引擎为我们提供大量的信息,但其中大部分都是与用户查询所不相关的。用户现在已经对利用通用搜索引擎找到一个专门主题信息已经越来越困难了,通用搜索引擎已经不能满足大多数用户对寻找特定主题信息的需要。相比于通用搜索引擎,垂直搜索引擎搜索一个特定的行业、主题、形式内容(例如:旅游,电影,图片,博客,生活事件)、块数据、地理位置等等。这些内容通过通用搜索引擎无法找到或者很难找到。正是由于这个原因,垂直搜索的主题是与深层次的网络紧密相关的。本文先是讨论了搜索引擎的发展历史和垂直搜索引擎的特点,然后介绍了垂直搜索引擎的组成部分及其原理,分析了其相关技术的研究现状。接着本文提出了一种垂直搜索引擎框架,该框架基于目标数据模式的抓取策略。事先选取主题的种子网站,约定提取的网页链接和提取网页内容的规则,解决主题相关度的问题;同时由于我们仅限这些网站内容的抓取又能避免无关网页的下载,大大提高了抓取和更新效率,降低了复杂度。很显然,人工选择主题网站难免遗漏了许多有用的主题资源,所以本文对该策略提供了一个友好的扩展方式,能简单方便地增加系统的抓取资源,提高系统的资源覆盖率。最后我们基于该框架实现了一个有关科技项目和知识产权主题的垂直搜索引擎。