基于关键词的生物主题爬虫设计

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:daidaide21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
详细介绍一种生物主题爬虫的设计及实现方案,通过优化初始种子模块、主题相关度分析模块、排序模块等四个模块的共同运行实现对网页信息的处理。用高效的主题爬虫取代传统搜索引擎中的普通爬虫,为实现更准确的信息采集提供良好基础。 This paper introduces in detail the design and implementation of a kind of biological theme crawler, and realizes the processing of the web page information by optimizing the operation of four modules: the initial seed module, the theme correlation analysis module and the sorting module. Replacing common crawlers in traditional search engines with efficient theme crawlers provides a good foundation for more accurate information collection.
其他文献
介绍水书是一种书写型的文献信息资源,记载水族古代天文、地理、宗教、民俗、伦理、哲学、美学等文化信息,被称为水族的“百科全书”.水书是研究水族社会历史文化的钥匙,同时
RSS技术的应用在国内外图书馆信息服务领域已经非常普遍,根据对国内几所图书馆网站实例的调查,简要介绍所调查的图书馆提供的RSS服务,并对各个图书馆RSS服务项目的特点进行分
阐述示范院校图书馆建设的特点和要求,分析目前示范院校图书馆存在的不足,提出建立合理的图书馆布局和科学合理的管理模式及人性化的服务方式.
以皖江文化为切入点,对皖江文化特藏文献的特征、分布情况、特藏结构、形式和作用进行深入细致的分析,并结合实际需求,对特藏文献采集的要求、原则和途径进行论述,以避免皖江
期刊
学位
针对广州大学城图书馆一直未能实现文献资源共享的现状,从规模、网络条件、计算机管理系统等三方面介绍广州大学城图书馆的基本概况,提出实现大学城高校图书馆通借通还的两种
从知识管理流程角度,系统地分析SDN企业实施知识管理(KM)的软件系统需求,给出该软件系统的功能需求、数据需求、用户界面、流程图及相关说明等内容;同时,指出该软件系统在实
针对网站信息检索精确度不高、交互效率低下以及用户体验感不佳等问题,在仔细分析Google Suggest功能与实现原理的基础上,结合Ajax技术在提高数据交互性能以及解决页面重载问
为了使工作更省力、更方便,人们发明了各种机械,杠杆就是最简单的机械.我们在学习杠杆这部分知识时,经常遇到求或作最小动力的问题,很多同学感到无从下手.下面我们一起从认识
期刊