论文部分内容阅读
主题爬虫(Focused Crawler)是主题搜索引擎的关键部件,目的是检索最大数量的与特定主题相关的网页。它会根据相关算法或者特定策略进行网页筛选,直到达到一定的下载数量、迭代次数或者主题相似度的精度阈值为止。比之通用爬虫,主题爬虫需要解决以下问题:主题定义、网页数据的分析、未知URL的搜索策略。对于主题定义、网页数据的分析已经比较准确和全面。而未知URL的搜索策略一直是主题爬虫研究领域的热点及难点,该领域的研究从最初的基于内容和链接到利用叙词表和本体,再到目前基于机器学习算法,主题爬虫的搜索精度和覆盖率都有了一定的提升。然而,当前主题爬虫的搜索策略研究依然存在着主题计算准确率较低,抓取网页的覆盖率不高,容易出现主题偏移,种子页面选取不合理等问题。为了解决以上问题,本文对主题爬虫搜索策略及相关技术进行了如下研究:1.本文设计了一个基于变异思想改进粒子群算法的主题爬虫模型。首先,对于每个主题基于点击率获取3种容易产生大规模聚集的网页群中的典型页面。然后,计算每个主题3种种子页面的权值,将权值作为粒子群爬虫的初始速度和方向值,使用本文提出的基于变异思想改进的粒子群算法抓取页面。其中,本文改进的算法将全局极值设置为完美但实际上并不存在的值,从而忽略了全局极值的影响并在算法陷入局部收敛时加入变异思想。最后通过对比实验并进行结果分析,对比于传统的爬虫方法,本文提出的主题爬虫模型可以获得更高的准确率,能够抓取高质量的网页。2.本文搭建了一种基于改进Louvain算法的种子页面选取框架。首先,基于搜索引擎获取一定数量的初始相关种子页面,将这些页面作为节点,使用本文改进Louvain算法对其进行社区划分。然后,计算初始划分社区的归一化互信息确定节点大小,通过删除多余节点构造出超级节点网络。最后,通过计算超级网络节点页面内容与主题的相似度得到超级网络节点页面权值,选取权值大于阈值的节点页面并去掉属于同一个社区的节点页面,得到种子页面集合。经过实验分析,证明本框架生成的种子页面能够有效提升主题爬虫的准确率和主题覆盖率。