基于链接的主题爬虫研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:houj521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这些年来,由于互联网上的网页数量呈指数增长,爬虫要爬取的信息量过大,它的负荷太过承重导致搜索引擎更新自己的网页数据库速度过慢,不能及时更新最新的消息,因此,主题网络爬虫将变的非常重要,它是一种以人为本的个性化服务体系,这将有针对性地选择指定的字段爬行,爬行用户真正想要的的资源和信息,这大大方便了我们在日常工作和生活,为人们解决了很多困难,节省了很多时间,所以主题网络爬虫已经引起了广泛关注。  本文首先介绍了通用网络爬虫和主题网络爬虫是如何工作的以及它们工作的流程,然后讨论研究涉及到主题网络爬虫的相关技术如爬行策略,中文分词算法,相关度计算等。本文主要研究了主题爬虫爬行策略,对经典 PageRank算中的 PR值计算加以修正,并引入最近搜索周期的概念改进了 WPR算法,本文的研究内容主要包括以下两点:  (1)针对经典 PageRank算法中,对新网页的 PR值分配不均以及主题漂移的现象,我们引入网页权威因子和时间因子来探讨网页的重要性。
其他文献
计算机网络和信息技术的快速发展,使人们日常生活及工作环境对计算机网络和信息技术的依赖越来越密切,对网络安全的要求也越来越高。当前网络安全防护技术有很多,如防火墙,访
如何更方便、更高效的进行信息共享已经成为新一代互联网研究的热点之一,作为真正意义上的分布式计算技术,P2P在高效资源共享方面拥有强大的优势。本文通过对国内外大量文献
本文研究了基于动态博弈的多机器人协作策略。首先,研究多智能体协作策略和多机器人系统的协作策略,针对机器人足球比赛SimuroSot 5vs5平台,提出了基于角色动态分配的足球机
随着计算机网络和多媒体技术的飞速发展,多媒体数据逐渐成为人们获取信息的重要来源,并成为人们生活的重要组成部分。然而当前数字信号处理和计算机网络传输技术的迅猛发展却
随着互联网的快速发展,互联网给人们带来了方便,也同时也造成威胁。目前网络攻击方法层出不穷,网络威胁也越来越多,网络安全问题日益突出,使得目前的防火墙等被动的网络安全机制对
计算机网络在过去的十几年中经历了爆炸式的增长,随之而来的是越来越严重的拥塞问题.拥塞控制的目标就是要达到链路吞吐量的最大化、分组延时的最小化、各用户之间资源分配的
数字水印技术作为一门新兴的学科交叉的应用技术,是信息隐藏的重要分支。它是将标识作者版权的保护信息和认证信息嵌入到图像、音频、视频或软件等各种数字产品中,以达到区分
随着移动通信网络规模的日益增大,网络问题不可避免的会增加,因此网络优化成为今后网络运维工作的核心。目前网络优化的多数流程都是依靠手工来操作,工作效率低下,因此开发出
工厂选址问题是运筹学中一个经典而重要的问题。但随着社会的发展,为适应不同的实际情况,新的问题层出不穷。本文第1章介绍了选址问题的背景与选题动机,概述了全文的总体结构
人脸表情识别是人机自然交互、计算机视觉、模式识别和图像处理等研究领域的热点课题,是情感计算、人机智能交互的重要组成部分,具有良好的发展前景。然而,由于人脸面部表情承载