垂直搜索引擎中网络蜘蛛的设计与实现

被引量 : 0次 | 上传用户：iris_1204

【摘要】

：

随着Internet的迅速发展,网络成为当今世界最大的信息库,它为信息共享和资源共享提供了一个良好的平台。然而大量的网页资源和网页的动态特性要求信息搜索系统不断升级,同时

【作者】

：

薛建春

【发表日期】

：

2007年期

【关键词】

：

搜索引擎网络蜘蛛信息采集搜索策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的迅速发展,网络成为当今世界最大的信息库,它为信息共享和资源共享提供了一个良好的平台。然而大量的网页资源和网页的动态特性要求信息搜索系统不断升级,同时人们对获取信息的时效性、针对性、准确性等方面有了新的要求。因此基于各专业的搜索系统也应运而生。如何能更快速、更准确的得到网络中的有用信息资源是网络用户面临的一个重要问题,而搜索引擎技术恰好能解决此难题。搜索引擎主要由搜索器、索引器、检索器和用户接口四部分组成。搜索器旨在研究开发出一个智能化的搜索软件,自动的在网络中的网页上爬行,进行信息的发现和抽取,建立本地的索引数据库,向用户提供查询服务。垂直搜索引擎是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎与传统的网页搜索引擎最大的区别就是将网页中的信息进行结构化的提取。使得信息在提取的时候就建立了分类,更好的适应查询需求。本文从研究和设计的角度对WWW搜索引擎的相关技术作了详细的分析和讨论,论述了目前搜索引擎的国内外发展现状和发展趋势。分析了搜索引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,提出一个基于图书专业的定题搜索器,它是垂直搜索引擎的核心。在文章的主体部分,以搜索引擎的设计流程为主线,从HTML页面解析的一般概念入手,结合网页之间的超链接分析(HITS算法),按照搜索引擎系统的要求,采用深度优先的搜索策略设计一个适合中小型网站专业网页信息获取的网络蜘蛛,并给出此网络蜘蛛的爬行算法,使用C++ Builder工具实现程序。另外,为了保证数据库中的信息不重复,还设计了一个专门用于数据查重的程序以保证资源准确。在此基础上采用数据库索引和检索工具Lucene相结合的方法建立索引、为检索结果排序。保证为用户提供更加准确的信息,更好的满足用户的检索要求。这种搜索方法对其他的专业搜索引擎系统的建立具有指导意义。最后的软件功能测试表明,此Spider程序算法准确、稳定、不会引起本地资源耗尽;它支持按指定站点搜索,按给定Url范围进行搜索的搜索策略。可以完成指定信息的自动搜索和下载。

其他文献

三疣梭子蟹不同包装方式保鲜效果的比较

三疣梭子蟹属宁波名特优水产养殖品种,但三疣梭子蟹在保藏加工中容易发生褐变,哪种包装方式可抑制梭子蟹褐变并有效延长产品保鲜期,是一个值得探讨的问题。该文对三疣梭子蟹

期刊

包装保藏试验保鲜效果三疣梭子蟹

德国鲁尔区城市产业遗存地再开发的考察与启示

城市产业遗存地的再开发是城市更新的一个重要组成部分，本文以德国最大的工业区——鲁尔区的城市产业遗存地为研究对象，简要回顾了鲁尔区的历史和再开发的时代背景，分析和总结了

学位

鲁尔区城市产业遗存地再开发物质性策划非物质性策划

超临界汽轮发电机组旁路系统应用研究

高参数、大容量的超临界机组是当今火电燃煤机组发展的必然趋势。而旁路系统是其重要的组成部分。旁路又包含两个方面的内容,即锅炉和汽机部分。锅炉部分是指锅炉启动旁路系

学位

超临界旁路控制策略

电子商务环境下传统企业流程变革研究

流程变革由来已久，开始于18世纪晚期的工业革命已经促使人们开始思考生产流程的组织问题。19世纪早期享利·福特创造的生产流程实现了让美国中产阶级拥有小汽车的梦想，享利·福

学位

电子商务传统企业业务流程流程变革

铁矿石和冶金煤市场回顾和展望

<正>一、铁矿石市场2016/17年度澳大利亚铁矿石出口收益同比增长31%,达到630亿美元,但低价格的影响抵消了成交量的增长,因而预计2018/19年度矿石出口收益将降至520亿美元。由

期刊

铁矿石澳大利亚铁矿石价格回顾和展望钢铁生产

直接流动注射化学发光法测定头孢噻肟钠

以多聚磷酸作为反应介质,采用高锰酸钾氧化头孢噻肟钠能产生强的化学发光,结合流动注射技术,建立一种简单、灵敏、稳定的流动注射化学发光测定头孢噻肟钠的新方法.探讨反应介

期刊

化学发光流动注射高锰酸钾头孢噻肟钠多聚磷酸

论行政诉讼举证责任制度及其完善

行政诉讼中的举证责任制度是行政诉讼证据制度的重要内容，也是行政诉讼理论和行政诉讼实践中一个重要而复杂的问题。从行政诉讼法施行十多年来的实践来看，行政诉讼法所确立的举

学位

行政诉讼举证责任制度完善

高龄化社会的产品设计趋势研究

在有一亿三千多万老年人的中国，人口老龄化发展速度是全世界最快的，而专门针对老年群体的生活用品设计与开发还很欠缺。在国外，老龄产业被称为“银色产业”和“金色市场”，已经有

学位

高龄化消费心理消费行为功能亲近感人因要素

哈尔滨市配电网规划及改造研究

与国内外发达城市相比,哈尔滨市配电网起步较晚,而且线损较高。通过城市配电网改造,不但可以取得显著的经济效益,而且能有效提高供电可靠性,改善电能质量。而配电网规划是城

学位

配电网规划GIS改造

火灾环境液化石油气卧罐稳定性与静态可靠性分析

沸腾液体扩展蒸汽云爆炸（BLEVE）是液化烃介质压力容器处于火灾环境而极易发生的一类多米诺效应灾难事故。本文针对液化石油气（LPG）卧罐，考虑LPG热力学性质与安全阀泄压过程，构建一

期刊

沸腾液体扩展蒸汽云爆炸多米诺效应火灾液化石油气卧罐稳定性可靠性

垂直搜索引擎中网络蜘蛛的设计与实现

其他学术论文