【摘 要】
:
随着互联网技术的飞速发展,人们在工作和生活中对互联网信息的需求也越来越多,搜索引擎技术的重要性越加明显。互联网信息在很多方面都有非常广泛的应用,搜索引擎技术已经深
论文部分内容阅读
随着互联网技术的飞速发展,人们在工作和生活中对互联网信息的需求也越来越多,搜索引擎技术的重要性越加明显。互联网信息在很多方面都有非常广泛的应用,搜索引擎技术已经深入人心,融入人们的生活,对人们的生活影响越来越大,而网络爬虫是搜索引擎中非常重要的一个部分。目前,基于单机的网络爬虫抓取能力已经不能满足当前互联网的需求,这样就促使了基于分布式网络爬虫技术的出现。构建分布式系统,多台机器有效的合作分工,提高了超大数据量的计算速度,提高了网络爬虫的抓取性能。运用分布式存储,对整个系统数据的存储的性能也能大大提高。本文详细介绍了分布式网络爬虫,设计并实现了基于Hadoop平台的分布式网络爬虫,以解决单机网络爬虫的速度慢、效率低下等问题,本文的主要研究工作如下:(1)介绍了搜索引擎技术,分布式网络爬虫的工作原理和关键技术,分布式网络爬虫整体系统的架构设计,分析了关键组成模块的具体实现流程和实现原理,各模块的MapReduce的实现方式。(2)针对网页抓取模块的已有算法影响抓取内容和抓取速度的问题,提出了 URL权重算法的优化方法,在抓取过后,对URL的过滤和去重也是极其重要的环节,对URL去重策略也进行了优化,解决了网络爬虫抓取方面速度慢、抓取内容冗余的问题,大大提高了网络爬虫抓取速度和准确度。(3)搭建分布式系统的测试环境,从功能性测试、性能测试、可扩展性测试三个方面设计了测试方案,并对URL权重算法和URL去重策略优化前后进行了对比测试。总之,本文的意义在于设计实现了分布式网络爬虫系统,在一定程度上解决了单机爬虫效率低、可扩展性差的弊端,提高了网络爬虫采集信息、网页抓取数据的速度和质量。
其他文献
本文从上海外滩踩踏事件出发,运用内容分析方法,对传统媒体在针对突发性事件报道中的社交媒体信源使用情况进行分析,研究结果表明:新媒体环境下,社交媒体信息传播具有出色的
自从政府提出实施国家大数据战略以来,互联网大数据成为重要的战略资源的地位越来越明显。而开采互联网大数据的有效工具网络爬虫也显得更加重要,但传统的爬虫均建立在VM集群
引入DEA方法应用于东莞市2003~2012年物流业与制造业的协同发展评价,发现在这十年中大部分年份东莞制造业与物流业的发展不协调,并据此分析不协调的深层原因,并对东莞市制造
国际收支申报数据作为外汇管理工作重要的数据来源,在外汇管理工作中的作用越来越重要。为更好地满足各项外汇管理工作对国际收支申报数据的需求,切实提高申报数据质量,作者
目的分析研究将快速康复护理模式应用在脊柱外科手术患者围术期的效果。方法对70例2016年3月至2017年8月本院收治的脊柱手术患者实施分组研究,其中以骨科常规护理模式对对照
综述了木质素作为改性剂、抗氧化剂、乳化剂等在沥青中的应用进展。木质素的有效利用,不仅能够减少造纸废液对环境的影响,为废弃物寻找好的出路,而且也降低了改性沥青的成本,
为了加强住院高危患者预防跌倒依从性的管理,保证住院患者安全,分析了高危住院患者预防跌倒依从性低的原因,制订及实施对策:①应用质量持续改进方法追踪评价患者行为;②制订
外科手术前进行手术野清洁和备皮被列为外科手术前护理常规之一,为了对术前采用剃毛备皮法和不剃毛备皮法进行了一些实验性研究,结果显示两种备皮法对皮肤无菌准备质量及切口愈
网络办公的便利性,启发高校财务报销模式由传统的手工报销模式向网上报销模式转变。本文通过分析传统报销存在的不足、网络报销具有的优势,提出高校应开展网上报销,为广大教
2016年被称为中国网络直播平台元年。基于实时直播的特性,网络直播在游戏、体育、娱乐等领域备受关注和推崇。本文从平台组成要素和传播流程的各个环节,深入分析直播平台爆炸