论文部分内容阅读
随着计算机的发展,互联网己经成为世界上最大的信息资源库,通用搜索引擎如百度浏览器、谷歌浏览器等可以通过关键词查询返回大量与关键词相关的结果,能够满足大部分用户的查询需求。但是对于少数用户,他们仅仅对某一个行业或领域的信息感兴趣,所以他们希望搜索引擎仅仅返回自己感兴趣的信息。为了获得与某一个行业或者领域有关的信息,利用主题爬虫算法对通用搜索引擎进行改进。论文中应用实体分析、网络结构分析并加以算法上的改进,提出了基于URL及上下文的主题爬虫算法,本算法对主题进行了实体分析,根据中文同义词词库将主题描述词进行扩展,作为主题相关度分析算法的输入。同时本算法将网页分成若干个信息块,在网络结构与文本内容两个方面分析每个信息块中的链接及本文内容,根据信息块中主题描述词的词频和权重信息得出该链接在文本内容方面的评分。如果评分大于设定的阈值,则将该链接认为是与主题相关的,否则与主题不相关。实验结果充分说明本论文提出的基于URL及上下文的主题爬虫可以实现很好的搜索效果。本文主要包括以下几个研究内容:1.在查询时,为了提高查询速度使用高性能的全文检索工具Lucene.Net,将网页内容中的链接、锚文本、上下文信息等内容创建索引,实现索引搜索。创建索引虽然会消耗一定的时间,但是创建索引通常在后台进行,而且索引创建之后可以重复利用,具有一劳永逸的作用。2.本文在实现中文分词时,通过比较Lucene.Net提供的各种分词方法和盘古中文分词,最终选择使用盘古分词。为了实现良好的分词效果,文中仔细研宄了最新版本的盘古分词工具包与其它版本的差异性。3.在计算主题相关度时,使用向量空间模型,计算余弦相似度结果作为相关度评分,如果评分大于设定的阈值则认为是相关的,否则认为是不相关的。