论文部分内容阅读
搜索引擎可以使人们更有效的从互联网络获取各种资源,其好坏直接决定着人们的互联网生活,但是任何事物都有两面性,网络生活既有积极的一面也有消极的一面,如何正确对待互联网生活,正确利用互联网造福人类尤为重要。本文首先分析搜索引擎的背景,接着对搜索引擎的意义进行介绍,以及现阶段的爬虫策略和排序策略。对于算法加以研究:在爬取部分广度中,要学会运用搜索时的并行化方法,另外在排序方面进行评分的策略,并从产品化策略去分析搜索引擎。本文主要研究了 Context Graph的主题爬行算法,并在该算法基础上做了改进:1.对主流搜索引擎及算法做了详细的介绍,分析了主题网络爬虫的主题爬行策略,分析比较了主题网络爬虫常用的爬行策略。2.对以Context Graph的主题为爬行算法进行了改进,改进的基础为一种基于词频差异的特征选择方法以及改进的TF-IDF公式,并在对TF-IDF公式调整中加入词的类别权重,用于提高特征选择和评价的质量。3.通过搭建一个爬虫模型,对改进前后的算法进行了分析比较,验证了改进后的算法具有更高的效率。通过对代码进行修改和最后的实验数据分析,证明了对爬取效率的提升。