论文部分内容阅读
随着因特网信息量的爆炸式增长,搜索引擎已经是有效获取信息的一种必要手段。为了满足专门学科领域和特定主题的搜索用户要求,主题搜索引擎在数据挖掘及信息检索领域变得越来越受欢迎。本文在充分研究了搜索引擎工作原理及关键技术基础上,重点分析了主题爬虫在P2P网络环境下实施的可行性和重要意义,设计了一种基于P2P分布式网络的主题爬虫PPSpider的总体框架,并在开源项目Heritrix基础上,开发实现了基于此框架的主题爬虫PPSpider,同时针对其爬行算法做了改进及相关实验。本文的主要工作包括:(1)针对P2P网络环境下主题模型难以确定的问题,本文首先利用通用的分类目录建立各个主题的特征词库,再挖掘对等节点的本地资源建立空间向量模型,通过计算它与通用分类下各个主题向量模型的相似度来确定该节点的主题倾向,进而确定主题模型。(2)针对通用的初始种子集可能遗漏边缘信息及隐藏信息的问题,提出了利用节点本身行为的记录信息来筛选出本地网页种子的方法。这样的初始种子集合不仅能覆盖热点网页,还能有效的覆盖网络边缘节点的相关主题信息,提高了主题爬虫的覆盖率。(3)针对P2P分布式网络下主题节点频繁加入退出操作带来的爬行效率低的问题,提出了一种sortURL机制来优化爬行算法:通过计算URL的Hash值与节点Hash值的距离给待爬URL进行排序,使得对等节点间的重复爬行页面数降低,提高了爬行的效率。由于sortURL对主题相关页面发现速度有影响,本文进一步考虑率sortURL的改进方案sortURL-Depth。综上所述,基于P2P分布式网络的主题搜索有较广阔的应用前景,而P2P网络下的主题爬虫作为其核心部分也一直成为研究的热点。本文就此提出了一种建立主题模型的思想,设计和开发了基于P2P网络的主题爬虫PPSpider,并针对爬行算法做了改进,通过挖掘节点记录筛选本地种子的实验结果表明改进的初始种子集能较快地发现目标网页,而sortURL机制也能在不改变节点吞吐率和网络开销的前提下降低网页爬行的重复率。