垂直搜索引擎中主题网络蜘蛛爬行技术的研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:mxltx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,Web的信息量越来越大,通用搜索引擎在信息采集、存储等方面面临更大的挑战。此外,由于通用搜索引擎面向所有的用户,力争在返回结果上做到面面俱到,而包罗万象的结果显然不能满足用户精确搜索的需求,因此,面向专业领域的搜索引擎即垂直搜索引擎应运而生。  网络蜘蛛是搜索引擎的重要组成部分。通用搜索引擎的网络蜘蛛(简称通用网络蜘蛛)的目标是要发现和下载尽可能多的网页,以使搜索引擎能回答更多的用户查询。而垂直搜索引擎的网络蜘蛛(简称主题网络蜘蛛)的目标是在尽可能少地遍历Web的前提下,尽可能多地发现与主题相关的网页。因此,如何设计一个好的主题网络蜘蛛是构建垂直搜索引擎的关键。本文主要研究的是面向垂直搜索引擎的主题网络蜘蛛爬行技术。主题网络蜘蛛在爬行过程中要解决以下几个关键问题:(1)怎样准确判断一个已经爬取的网页是否与主题相关;(2)如何决定待爬行URL的访问次序以提高主题网络蜘蛛的收获比;(3)怎样穿越隧道以提高主题网络蜘蛛的召回率。  对于问题(1)本文分析了页面主题判别中的两种算法:主题中心向量法和基于文本分类器的页面主题判别算法的优缺点,并采用文本分类器中的朴素贝叶斯分类器作为本文的页面主题判别算法;对于问题(2)本文提出了基于分块提取链接上下文的主题预测算法,将网页分块技术应用到链接上下文提取,这样提取的链接上下文对于链接主题的预测具有较高的准确度;对于问题(3)本文改进了隧道技术,提出了基于主题相似度的隧道技术并设计了一种基于主题相似度指导网络蜘蛛穿越隧道的爬行算法。所改进的隧道技术能有效的在WWW上鉴别隧道页面和非隧道页面,从而在保证一定收获比的前提下,使主题网络蜘蛛具有较高的召回率。  最后设计实现了一个主题网络蜘蛛系统,并在该系统中对本文提出的基于分块提取链接上下文的主题预测算法和基于主题相似度指导网络蜘蛛穿越隧道的爬行算法分别进行了主题爬行实验。
其他文献
内存去冗余化一直是计算机高性能领域研究的一个热点,在服务器上特别是云计算中,各类的服务或者虚拟机对内存的需求很高,在传统的虚拟机技术中,每个虚拟机(VM)都需要有一块独
Ad Hoc网络是一种特殊的无线移动网络,具有不同于传统无线移动网络的一些特点。由于Ad Hoc网络移动终端的电池能量有限、网络拓扑结构动态变化、通信使用无线信道、分布式控
现在的商业界处于一个快速连续变化的信息环境中,激烈的竞争使他们希望信息系统能够敏捷灵活的处理市场和组织业务的变更。业务流程总是随着时间发生变化的,经常出现难于预料
随着全球化进程的推进,跨国企业的发展,越来越多的语言进行互相翻译。统计机器翻译具有效率高、成本低的特点,具有广阔的应用前景。但是目前统计机器翻译系统的翻译性能还有
本文涉及一种社区宽带综合业务网络系统,使用交换式以太网技术,在一个物理网络上实现常规电话网、数字电视网、计算机网的基本业务,为社区用户提供IP电话、数字电视、Interne