搜索引擎中网络爬虫的研究

来源 :武汉理工大学 | 被引量 : 28次 | 上传用户:xxj3918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎作为信息检索技术在互联网时代的应用,使人们能够更有效的从互联网获取各种资源。但随着互联网的发展,传统的搜索引擎,即通用搜索引擎渐渐不能满足人们对信息检索服务日益增长的需求。近年来,面向主题的搜索引擎应运而生。本文围绕主题搜索引擎,对主题搜索引擎中占有重要地位的主题爬虫相关技术进行了研究和讨论。网络爬虫用来从互联网上抓取页面。通用爬虫会从一些种子链接开始,目标是获取互联网上所有的页面。而主题爬虫的目标是获取与特定主题内容相关的页面,因此除了具有通用爬虫的基本功能外,还需要对页面的内容和链接进行分析从而能够对爬虫爬行的路径进行指导和预测。主题网络爬虫选择什么样的爬行策略对互联网进行访问,直接影响着其爬行的效率。本文着重研究并改进了基于Context Graph的主题爬行算法,研究工作主要有以下几个方面:(1)研究了搜索引擎中通用网络爬虫和主题网络爬虫的技术原理、工作流程,着重分析了主题网络爬虫的主题爬行策略,对主题网络爬虫常用的基于链接分析的爬行策略和基于内容分析的爬行策略进行分析比较。(2)针对传统的主题爬行算法不能很好解决“隧道现象”的问题,本文详细介绍了一种基于Context Graph的主题爬行算法,它通过预测新抓取页面在Context Graph中所处的层次,能够指导网络爬虫沿着最有可能找到目标页面的路径爬行,进而较好地解决“隧道现象”的问题。(3)使用一种基于词频差异的特征选择方法和改进的TF-IDF公式对基于Context Graph的主题爬行算法进行了改进,加入词的类别权重作为对TF-IDF公式的调整,以提高特征选择和评价的质量。(4)实现了一个主题爬虫原型,通过实验对各算法进行了分析和比较,验证了本文改进的算法能够得到更加准确的文档集特征及权重,进而提高主题爬虫的性能。
其他文献
集成学习是被广泛应用的学习技术之一,它通常需要训练多个基学习器。而已有的应用及理论研究表明,删除集成系统中一些冗余或者分类性能较差的基学习器,可以有效提升集成学习
信息技术的发展催生了一个新的概念-物联网。物联网及其相关技术的飞速发展为我们的生活带来便利,也为绿色校园建设带来了新的机遇。物联网技术已经在楼宇控制、交通、电力等
数码相机的普及和图像编辑处理软件的广泛使用推动了图像篡改伪造技术的迅速发展,利用数字水印和数字签名的预先在图像中嵌入信息的数字图像主动取证技术在新的环境下已显现
随着信息技术的发展,大量体积小、低成本,具备感知计算能力的设备得到普遍应用。多数情况下,数据可以经由传统的路由-交换方式进行有效传输,但是在一些没有架设基础通信设施
根据移动支付的应用需求,将ECC算法和PKI体系引入到移动支付系统的设计中。ECC算法有快速、安全且硬件要求低等优势,相比其他公钥密码算法更适宜应用于移动支付。PKI技术是一
互联网技术和信息技术的迅速发展不但使得网络上的电子文本数量急剧增加而且改变了人们获取信息的方式。如何对这样数量庞大的电子文本进行有效的组织管理以方便人们快速、准
计算机视觉和图像处理是目前国内外研究热点,其中图像特征提取与匹配是图像分析与图像识别的前提。图像特征提取,是将高维的图像数据进行简化,提取出图像的关键信息(特征点),
目标跟踪是计算机视觉所研究的核心问题之一,在视频监控、自动驾驶、人机交互等领域有着广泛的应用前景。目前的相关技术虽然取得了较大的进展,但由于存在一些表观变化问题和外在干扰因素,如何设计一个鲁邦的跟踪算法仍然是一个具有挑战性的问题。近年来,卷积网络表现出强大的特征提取能力,而被广泛应用于计算机视觉中。考虑到深层的卷积网络需要大量的样本和时间进行线下训练,而在目标跟踪中,只有初始帧的位置状态是给定的。
学位
色彩对于图像增强、目标识别等许多研究领域都是非常重要的信息。准确的色彩信息对数字图像视频的下一步处理具有关键意义。色彩恒常性是指在不同的外界环境中,人眼对物体色
核电站智能机器人是现代核工业不可缺少的工具,更是现代核工业未来的发展目标和方向。专家系统是一种模拟人类专家解决领域问题的计算机程序系统,是人工智能应用研究中最活跃