基于P2P的主题爬行与搜索路由研究

来源 :武汉理工大学 | 被引量 : 3次 | 上传用户:wangzhujiaqiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网信息量的爆炸式增长,搜索引擎已经是有效获取信息的一种必要手段。为了满足专门学科领域和特定主题的搜索用户要求,主题搜索引擎在数据挖掘及信息检索领域变得越来越受欢迎。本文在充分研究了搜索引擎工作原理及关键技术基础上,重点分析了主题爬虫在P2P网络环境下实施的可行性和重要意义,设计了一种基于P2P分布式网络的主题爬虫PPSpider的总体框架,并在开源项目Heritrix基础上,开发实现了基于此框架的主题爬虫PPSpider,同时针对其爬行算法做了改进及相关实验。本文的主要工作包括:(1)针对P2P网络环境下主题模型难以确定的问题,本文首先利用通用的分类目录建立各个主题的特征词库,再挖掘对等节点的本地资源建立空间向量模型,通过计算它与通用分类下各个主题向量模型的相似度来确定该节点的主题倾向,进而确定主题模型。(2)针对通用的初始种子集可能遗漏边缘信息及隐藏信息的问题,提出了利用节点本身行为的记录信息来筛选出本地网页种子的方法。这样的初始种子集合不仅能覆盖热点网页,还能有效的覆盖网络边缘节点的相关主题信息,提高了主题爬虫的覆盖率。(3)针对P2P分布式网络下主题节点频繁加入退出操作带来的爬行效率低的问题,提出了一种sortURL机制来优化爬行算法:通过计算URL的Hash值与节点Hash值的距离给待爬URL进行排序,使得对等节点间的重复爬行页面数降低,提高了爬行的效率。由于sortURL对主题相关页面发现速度有影响,本文进一步考虑率sortURL的改进方案sortURL-Depth。综上所述,基于P2P分布式网络的主题搜索有较广阔的应用前景,而P2P网络下的主题爬虫作为其核心部分也一直成为研究的热点。本文就此提出了一种建立主题模型的思想,设计和开发了基于P2P网络的主题爬虫PPSpider,并针对爬行算法做了改进,通过挖掘节点记录筛选本地种子的实验结果表明改进的初始种子集能较快地发现目标网页,而sortURL机制也能在不改变节点吞吐率和网络开销的前提下降低网页爬行的重复率。
其他文献
组合测试是一种科学有效地软件测试方法,它能在保证软件质量的前提下,以较少的测试用例检测待测软件系统中各个变量以及它们之间的相互作用对系统产生的影响,实践证明其具有
随着社会交通运输的快速发展,越来越多的长途客货运驾驶员忙碌在工作岗位,因疲劳驾驶出现的事故频繁发生。因此,疲劳驾驶检测的相关研究意义重大。其中基于计算机视觉的检测
舵机最早出现在航模设计中,在航空模型中,飞行器的各种飞行姿态是通过调节发动机和各个控制舵机来实现的。而随着航空技术的发展,航空装备越来越复杂,对舵机的可靠性和控制要
近年来我国人民的消费出现快捷多样的特征,民众对时鲜果蔬、水产乳品等生鲜产品的需求逐年增加。采用全程低温运输以保证食品质量的冷链物流(cold chain)悄然兴起。但数据表
虚拟植物是指利用虚拟现实环境对植物的生长过程进行模拟的技术。虚拟植物是一个综合性研究课题,涉及到应用数学,计算机科学,农林学,生态学等学科理论,是当前的一个研究热点
指代消解是自然语言处理的重点和难点之一,在信息抽取,文本摘要等应用中都涉及到指代消解问题。待消解项识别是指代消解的一个子任务,是制约指代消解性能的关键要素之一,也是
随着网络的快速发展,网络资源和信息也呈爆炸性增长。对于这些海量的信息,越来越多的人都愿意通过使用搜索引擎从网络上查找自己需要的信息。但是基于关键词匹配的传统检索系
网络安全问题日益严峻,已有的传统方法已经不再能够满足日益增长的网络安全问题的需要,单CPU双总线安全计算机体系结构(简称sCPU-dBUS)从改变计算机体系结构的角度来保障计算
Web服务和语义Web是WWW发展的两个重要趋势,两者具有很好的互补性,这两种技术的结合产生了另一个新兴的研究课题——语义Web服务。语义Web服务指的是用语义Web标记语言来描述
Web已经成为人类获取信息和得到服务主要方式之一,Internet技术的高速发展使它成为了一个庞大的知识库,但同时也带来了许多问题。首先,Web规模的膨胀使得整个Web上的有用信息