基于Hadoop的分布式网络爬虫的设计与研究

来源 :成都理工大学 | 被引量 : 3次 | 上传用户：Lyre_00

【摘要】

：

对于网络爬虫进行了一种基于Hadoop的分布式网络爬虫的设计与研究,随着互联网时代的到来,互联网技术迅速得到发展,网络上的网络资源也在快速增长。面对互联网上的各式各样的

【作者】

：

程泽

【出处】

：

成都理工大学

【发表日期】

：

2018年01期

【关键词】

：

Hadoop 分布式爬虫 PageRank Simhash

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

对于网络爬虫进行了一种基于Hadoop的分布式网络爬虫的设计与研究,随着互联网时代的到来,互联网技术迅速得到发展,网络上的网络资源也在快速增长。面对互联网上的各式各样的资源,想要能够快速而又准确的找出需要的资源变得不再那么简单。通过搜索引擎便能完成对信息的检索,而搜索引擎与网络爬虫密不可分,只有通过网络爬虫在互联网上爬取到更多的信息资源,搜索引擎才能完成相应的操作。因此,网络爬虫的设计十分重要。如今,已经有越来越多的公司和组织开始致力于设计高效的爬虫系统来对互联网上数以十亿的网页资源进行爬取。由于互联网上庞大的数据资源,传统单机的网络爬虫的抓取和解析效率已经远远达不到现如今的需求。因此,采用基于Hadoop集群来开发,并对网络爬虫在DNS解析、URL抓取、文件解析、URL获取、URL处理以及判断模块进行设计和优化。对于DNS解析模块,通过在上一轮抓取任务开始时,在节点上创建一个解析下一轮待抓取URL的线程来对域名进行提前解析,并将解析的结果存入DNS缓存区中。通过这种预处理过程和缓存区的设计,使得爬虫系统在下一轮抓取任务开始时,不需要等待解析域名过程的完成,而直接去DNS缓存区中获取对应的IP地址映射。这可以有效的增加爬虫系统的效率。在抓取模块中,采用了PageRank算法对URL的重要性进行判断,对待抓取的URL按照PageRank值的大小进行抓取。通过对互联网中网页各种出链形式的分析,采用迭代的思想得到每个网页初始的PageRank值。再依据互联网中出链的指向情况来相应的增加网页的PageRank值。由于网页PageRank值的大小从侧面反映了互联网中出链指向该网页的数量,也决定该网页的重要程度,使得抓取顺序即为网页重要性程度的顺序。这大大降低了垃圾网站的无关信息出现在搜索结果中的机率。文件解析模块中,通过实现Apache Tika对外提供的外部接口,并调用其中的工具来完成对于不同文件的解析和处理。将解析出来的信息中的URL资源信息进行提取,并匹配正则表达式的格式,来判断URL是否合法。在处理模块中,针对网络中网页相似度较高甚至重复的情况,通过采用指纹生成算法中的Simhash算法,对网页文本信息进行分词操作,并对分词设定权重级别。通过每个分词对应的hash值和权重级别,进行加权计算并得到相应的加权值。再合并分词的加权值就可将文本信息转换成长度一定的序列串。通过降维的方式,可以将文本信息相似度的对比转换成比较相应二进制序列串的对比。通过统计二进制序列串中对应位置上数字不同的个数,得到海明距离。爬虫系统会将海明距离小于3的网页判定为重复网页,不进行重复抓取而直接舍弃。URL获取模块通过MapReduce算法的计算获取URL信息,并将已抓取的URL状态更改为已抓取状态。将抓取到的URL资源传递给判断模块,通过判断URL种子库中是否已经包含了该URL资源,来决定对URL资源进行不同的处理。如果包含该资源,爬虫系统会直接舍弃该资源;如果不包含,则会将该资源加入到URL种子库的末尾。通过在URL种子库中加入不同数量的URL来测试爬虫的功能,结果显示URL种子库中URL数量不同时,都能够完成从URL种子库中的URL为起点抓取到互联网中的URL资源,并且在抓取过程严格按照PageRank值的大小顺序进行抓取。在URL种子库中放入两条重复的URL时,通过Simhash算法的计算后海明距离小于3,来判定两个网页为重复网页,只进行了一次抓取动作。又在不同节点数的集群下完成抓取过程时,通过对抓取的网页数量和抓取时间的统计,计算出了不同节点数的集群下的抓取速率,得出节点数越多速率的波动越小,且最后抓取速率会基本稳定在某个固定值附近作上下波动的结论。通过速率大小的对比,得出节点数越多网络爬虫抓取的速率越大,但随着节点数的不断增加,抓取速率的增长程度会不断变小。

其他文献

低环境温度工况下喷液和喷气增焓空气源热泵热水机排气温度控制分析

对应用于北方供暖的带喷液和带喷气增焓的空气源热泵热水机的排气温度控制进行简要分析。通过对比不同工况下喷液和喷气系统的不同控制方案，提出系统设计时需要考虑的因素。试

期刊

空气源热泵热水机低环境温度喷液喷气控制

狭鳕鱼排美拉德反应制备肉香型风味物及其抗氧化活性研究

美拉德反应是肉类风味形成的重要途径之一,利用动物蛋白水解液中的氨基酸、多肽与还原糖反应制备肉味风味物不仅综合利用了加工副产物(狭鳕鱼排),提高其经济价值,也为制备天

学位

狭鳕鱼排复配酶解美拉德反应挥发性化合物抗氧化活性

小麦淀粉分支酶SBEIIa、SBEIIb基因序列多态性分析及功能标记的开发

【目的】为了从分子水平上阐明造成不同的小麦品种(系)中抗性淀粉含量差异的原因,以及为抗性淀粉标记辅助选择提供理论基础。【方法】本研究通过克隆抗性淀粉含量不同的小麦

学位

小麦抗性淀粉SBEIIaSBEIIb多态性分析功能标记

碳纤维经纱织造用乳液浆料研究

碳纤维织物增强热塑性复合材料以其可回收性、成型时间短、冲击韧性好等优势具有广阔的发展前景。目前加工的碳纤维织物多带有环氧树脂类浆料,且带有这种浆料的织物不再退浆,

学位

碳纤维织物聚丙烯酸酯乳液浆料经纱织造

红米红色素抗衰老作用的实验研究

红米红色素是一种重要的天然食用色素,不仅安全无毒,而且营养价值较高,研究表明,它具有抗氧化、降血脂、抑癌、抗过敏等多种生物活性。本文对红米红色素的抗衰老作用进行了体

学位

红米红色素抗氧化衰老模型抗衰老基因表达

优质老鸭汤炖料配方工艺优化与应用研究

汤煲类食品历史悠久,深受国人喜爱。其中“老鸭汤”以其汤鲜味美、老鸭皮糯肉耙、萝卜酸香爽口、具有独特的风味,令人常食不腻。因此为实现老鸭汤料规模化、标准化生产,本文

学位

鸭汤熬煮工艺鸭汤配料企业标准

基于Web的网络监控系统的设计与实现

随着邮政信息化建设的快速发展,网络对于邮政业务的发展变得尤为重要,为便于对沧州全区的网络和设备进行监测,及时了解全区的网络情况,采用基于web的B/S体系结构,使用Struts1

期刊

web技术B/S模式网络监控

大肠杆菌O157:H7在土壤矿物表面吸附的ATR-FTIR和ATP研究

食源性病原菌大肠杆菌O157:H7致病力强,感染剂量低(10个活细胞就能引起感染),可通过粪肥施用或污水灌溉进入土壤环境,对公众健康构成严重威胁。本文以大肠杆菌O157:H7和土壤

学位

大肠杆菌O157:H7矿物衰减全反射红外光谱ATP

数字水印在可变数据印刷中应用的研究

数字水印技术是近年发展起来的用来实施版权保护和信息安全的有效手段之一。本文将可变数据印刷与数字水印技术的研究结合起来,研究了数字水印在可变数据印刷中的应用性。一

学位

数字水印可变小波变换

辣椒红色素的稳定性及在猪肉糜中的应用

肉制品的颜色属于其品质的一个重要方面,肉制品的加工中越来越多的使用包括辣椒红色素在内的着色剂。辣椒红色素是一种天然色素,性质不稳定,在实际应用中,添加辣椒红色素的食

学位

辣椒红色素稳定性影响因素稳定剂猪肉糜

基于Hadoop的分布式网络爬虫的设计与研究

其他学术论文