论文部分内容阅读
Internet的出现和快速发展,现已成为目前世界上最大的信息资源库。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎虽然在一定程度上满足了人们的需要,但由于其通用的性质,仍不能满足不同背景、不同目的和不同时期的Web用户检索的需要,用户从中得到的查询结果往往是一个长长的列表,其中包含了大量重复信息和不相关信息,而要找到想要的信息是一件很困难的事情,因此当要满足一些高级或专业性的信息检索要求时,就需要获得一个面向特定主题(或者特定领域)的全面的Web页面集合,为此,针对主题Web挖掘技术的研究应运而生。通用搜索引擎的局限性在于其试图索引全部Web并且试图服务于涉及所有主题的查询请求,而面对的又是如此巨大的Web资源库,显然心有余而力不足。面向主题的主题爬虫是主题Web挖掘的核心技术,主题爬虫只覆盖与特定领域相关的网页,爬行原则是尽量使爬行相关页面数量最大化,不相关页面数量最小化,这样它可以搜索的更深,搜索的周期可以更短,更能满足用户对获取资源的快速、准确性的要求。本文主要的研究工作是根据爬虫的效用来进行技术分析和研究。在主题搜索中,主题爬虫以何种搜索策略访问Web,提高效率,是主题Web挖掘研究的热点问题之一。而Web的动态性,异构性和复杂性要求主题爬虫能够高效率的实现Web信息提取,保证信息的实时性和有效性。本文的主要工作体现在以下几方面:(1)介绍了通用搜索引擎的基本结构、工作原理、分类及其现状和局限性,分析了主题Web挖掘的研究背景,任务及目前研究技术的进展,探讨了主题爬虫关键技术及其实现要点,并对通用搜索引擎和主题Web挖掘的关系进行了分析。(2)按照评价链接价值所采用方法的不同,对主题Web挖掘中现有的主题爬虫搜索策略进行了分类,系统分析、并比较了它们的特点和优缺点,归纳了提高搜索效率的三个关键因素,考虑到主题Web挖掘对数据实时性、专业性的要求要远远高于通用搜索引擎,提出了一种全新的基于索引页的增量Web信息提取算法,能够高效快速地发现Web上新增加的页面。(3)考虑到基于超链接结构的算法和基于向量空间模型的算法各自的局限性和互补性,对传统的超链接算法进行了改进,提出了一种基于向量空间模型的超链接算法。该算法一方面通过分析网页之间的链接关系得到每篇网页的入度值和出度值,同时另一方面又通过锚文本和超链接上下文等标记文本信息的匹配从而更加客观和准确地作出相关性判断,具有更好的性能。(4)针对目前爬虫效率不高的状况,以主题相关度和高效的爬行策略为核心提出了一套主题爬虫的设计方案,并充分说明了设计方案的可行性,然后对实现进行了详细分析和论证。实验结果表明虽然主题爬虫比普通爬虫耗时,但它也带来了正面效应,使爬行的工作量得到了一定程度的减少,页面一旦进入抛弃队列将不再被处理,而普通爬虫只会没有选择的对所有页面进行处理,而且主题爬虫在搜索的准确性和精确性上都比普通爬虫要好。主题Web挖掘能实现更高的查全率和查准率,能满足一些高级或专业性信息的检索要求,目前主题爬虫技术已成为一个将采集技术与过滤方法结合的新兴方向,也是信息检索领域的研究热点,为Web信息的利用提供了新的解决方案。