【摘 要】
:
网络爬虫是一种自动获取网页内容的程序,通常作为搜索引擎的重要构成从互联网上抓取网页。近年来,互联网的飞速发展使得网络信息呈现爆炸式增长,要从数据的汪洋大海中快速准
论文部分内容阅读
网络爬虫是一种自动获取网页内容的程序,通常作为搜索引擎的重要构成从互联网上抓取网页。近年来,互联网的飞速发展使得网络信息呈现爆炸式增长,要从数据的汪洋大海中快速准确地获得需要的信息,通用的网络爬虫已经难以胜任,主题网络爬虫(也被称为聚焦爬虫,focused crawler)由此产生。主题爬虫根据一定的页面分析算法过滤掉跟主题不相关的URL,只保留符合要求的链接,再抓取并存储页面,为下一步的查询和检索提供资源。本文首先对网络爬虫的发展情况与相关技术进行介绍,对主题爬虫关键技术进行分析。着重针对通用网络爬虫的不足,分析了多线程主题网络爬虫工作原理及相关技术,给出主题爬虫的工作流程和总体设计,包括基本功能架构、网页抓取模块组、前端展示模块组、数据库设计以及系统界面的总体设计。通过对主题相关性判断算法的分析,在页面内容的处理上,使用向量空间模型将网页的内容表示成向量,再给这些向量定义一个相似度,这样就可以能够判断出内容的相似度,本文采用基于内容评价的Fish-Search算法来实现这一目标;在对URL的处理上,采用基于链接分析的PageRank算法来实现,根据数量假设和质量假设计算得出的结果可以评价介网页的重要性。本文结合上述两种算法实现主题相关度评价,保证下载的网页与主题之间的相关度,有效地避免"主题漂移"现象,也保证查准率与查全率。在多线程的处理上,本文采用的Python线程池对IO密集型任务比较友好,能够有效提高工作效率。
其他文献
气道慢性炎症是支气管哮喘的特征,亦是引起支气管上皮损伤、气道重塑和气道阻塞的主要原因。气道持续损伤和修复的病理过程是由于气道受激活的炎性细胞释放的炎症介质和细胞因
《克拉玛依油田七东1区克下组油藏聚合物驱工业化试验》是中石油2005年立项的重大试验开发项目。通过对试验区的油藏地质分析,建立了合理的精细地质模型和油藏数值模型。经模
目的:探讨对糖尿病合并冠心病患者进行多样性护理的效果。方法:选取新疆维吾尔自治区中医医院收治的65例糖尿病合并冠心病患者作为研究对象。将其中进行常规治疗及常规护理的
“教会学生思考,这对学生来说,是一生中最有价值的本钱。”阅读教学的每一步都离不开提问。好的提问能燃起学生思维的火花,启发学生积极思维,调动学生学习的积极性,引导学生
在我国,有关网格化管理模式和社区文化建设绩效评价体系相结合的研究非常稀少。笔者基于网格化管理模式,合理地建立了一套的社区文化建设绩效评价体系,以江苏省南京市仙林街
Despite myriad internet restrictions,little has been done to curb the daily occurrence of hate speech and cyberbullying on China’s social media platforms and o
复杂系统及其协同控制是分布式人工智能的一个重要分支,其在计算机科学、自动化控制、通信工程以及仿生学等多个领域有着广泛应用。多智能体系统的分组一致性问题是复杂系统协同控制的前提与根本性问题,同时也是一个前沿与热点问题。目前,分组一致性问题的相关研究工作多数基于同构系统,即整个系统由具有相同动力学行为的智能体构成。然而,受环境约束以及实际需求的限制,通常系统内部的智能体均存在差异。因此,对异构系统分组
在社会资本的视域下,城市社区文化建设有其独特的内在逻辑:社区文化建设有助于培育和重构社会资本,构建和形塑社区关系网络,建设和营造良好的社区生活共同体;而丰富的社会资
目的:星形胶质细胞约占哺乳动物中枢神经系统细胞总数的30%,在生理和病理过程中发挥重要作用。HECTD1作为新发现的E3泛素连接酶,通过作用于不同泛素化底物对迁移产生不同影响
高温超导大电流导体的研发是高温超导电缆导体、高温超导电流引线和超导装置的线圈或磁体走向大容量、实用化必须面对的现实课题,掌握其基本特性对超导电力装置研发具有重要