并行网页抓取系统设计

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:wolaile999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎的出现为用户及其需要的信息之间建立了一座桥梁。不过,随着网页数量的快速增长,搜索引擎已经无法搜索互联网的所有网页,对下载的网页进行及时更新也成了问题。如何在有限的资源下搜索最有价值的网页,以及如何对网页进行最有效的更新,已经成为现代搜索引擎的重要研究方向。本文对搜索引擎的发展历史及现代搜索引擎的功能结构进行了介绍,并讨论了搜索引擎技术中网页爬行和更新存在的问题,在分析了现有实现技术优劣势的基础上设计了具有高度系统灵活性和扩展性的并行网页抓取系统,实现了网页的并行快速抓取。为了保证优先抓取高质量的网页,系统设计了基于网页链接重要性和路径重要性的启发式搜索算法,首先根据上述两个重要性计算网页的综合权重,然后根据网页的综合权重大小调整对网页的爬行顺序。爬行器在启发式搜索策略的指导下优先爬行那些比较重要的网页,提高了抓取网页的质量。为了实现网页库的高效更新,系统设计了基于贝叶斯的网页库更新算法,通过估算网页变化频率类别实现网页库中网页的分类更新,提高了更新效率和网页库的新鲜度。
其他文献
报表作为系统数据的呈现方式和数据来源的组织形式,可以直观明确地展现各类信息,以及数据之间的复杂关系。在我国大洋调查领域,海洋样品数据的管理主要采取报表文档的方式,而且后
无论部队还是地方,物流配送作为后勤保障和经济发展的基础,它的功能和作用在不断加强。物流配送中的车辆路径优化问题是整个物流配送优化中关键的一环,也是社会发展,经济活动不可
随着汽车电子和汽车网络技术的广泛应用,传统意义上的汽车已经逐渐的转化为“装在轮子上的信息终端”。在移动信息终端应用中,嵌入式浏览器扮演着举足轻重的角色。但是复杂的多
使用神经网络对非线性系统的预测已经具有良好效果与广泛应用。其中循环神经网络在预测中更具优势,但长期以来其学习方法一直没有较大提高。回声状态神经网络是一种新型的循
视频流在网络中的实时传输与控制是近年来研究的一个热点。随着Internet的普及与发展,视频在网络中有着越来越广泛的应用,但由于实时视频通信具有数据量大、网络带宽要求高、
随着我国铁路的快速发展,特别是铁路客运专线的引入,新的铁路信号设备被引进,因此对铁路新信号设备管理和维护与铁路工作人员落后的管理水平产生矛盾,同时现有的应急抢修系统
随着信息技术的发展和加深,企业应用系统要求可以在因特网环境下进行企业间的应用互操作和应用集成,要求能够依据新的需求,快速、灵活地集成各种已有的和新添置的业务应用系
随着社会经济的发展,城市道路交通状况越来越拥挤,交通问题几乎成为了所有大、中型城市面临的共同问题。交通拥堵是很多交通问题共同作用的结果,严重影响城市生活的正常运转。交
随着电路技术进入超大规模集成(VLSI)时代,系统复杂度的不断提高和工艺技术的持续发展都使得电路节点的物理可访问性正逐步被削弱,测试开销在电路和系统总开销中所占的比例不断
随着计算机技术的发展和互联网应用的深入,各种恶意代码(计算机病毒、网络蠕虫等)成为计算机使用者遇到的最普遍问题。网络蠕虫的传播不仅可以占用被感染主机的大部分系统资