互联网数据增量采集系统的设计与实现

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:lsj111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,其数据量呈指数级爆炸性增长。互联网中的各类门户网站、社交媒体、博客论坛每天都会产生大量新网页新数据,这些数据中可能蕴含大量有价值的信息。若能及时对这些数据进行增量采集,并加以分析处理,提炼有价值的内容,其意义不言而喻。增量式网络爬虫是增量采集互联网数据的有力工具,设计并实现一个增量式爬虫是获取有价值信息的第一步。互联网中存在大量格式良好,页面中链接更新频率高的index型网页。重点分析并采集这类网页可以提高增量式网络爬虫的效率,对于从互联网中发现新信息十分重要。本文设计并实现了一个针对index型网页的增量式数据采集系统。该系统基于Heritrix3.1.1开发,对Heritrix的增量功能进行了改进,并实现了一套针对index网页的的开发接口,开发者可以快速向系统中添加新的数据源。本文首先对Heritrix相关技术原理进行研究,针对Heritirx功能的不足之处提出改进方案。然后根据index型网页的特点,设计了针对这类网页的增量策略。本文对网络爬虫运行时会遇到的常见问题也提出了解决方案。在本文整体设计与详细设计相关章节中,详细描述了互联网数据增量采集系统的设计与实现过程。系统开发完成后,通过对其进行大量功能与性能测试,证明系统达到了预期设计目标。目前系统稳定运行,增量采集了大量数据,充分验证了系统的可用性与可靠性。本文最后对互联网增量采集系统相关开发工作进行了总结,指出系统当前存在的不足和未来改进方向。
其他文献
<正>因腹股沟区解剖结构比较复杂,该区肿块常难以准确触诊,高频超声具有高清晰、分辨率强的特点,能准确显示腹股区肿块的形态、大小、数量、位置、深度,及与男性生殖器官的关
目的:探讨社会支持对护理学生职业成熟度的影响,为培养护理学生职业规划提供新的视角与合理建议。方法采用社会支持评定量表( SSRS)和职业成熟度问卷对759名不同教育层次护理学生
文章以新课程标准为背景,讨论了高中英语阅读教学中报刊阅读的必要性和如何以笔记法辅助报刊阅读,从而使学生阅读兴趣增长、能力提升、效率最大化。
数学概念是关于对象的数和形的某一类本质属性的整体反映.它用简练、精确的文字或公式指出了定义的对象最显明、最基本的本质属性.因而概念是发展扩散思维的基本条件,是思维
根据电容、电压、电量几个量间的关系 ,串联电容能起到提高耐压能力 ,但应满足一定的条件 :CU≤ Ci Ui(min) 。
目的 :探讨用沙格列汀治疗老年2型糖尿病(T2DM)的有效性及安全性。方法 :将29例合并有肝、肾、心等重要器官原发疾病的老年2型糖尿病患者随机分为观察组和对照组,为观察组患
刷单,即网店经营者雇佣他人为提高网店信誉度以吸引更多顾客,假扮顾客,刷取一定好评,并获得一定佣金作为报酬的行为。刷单现象引发的问题一直是近几年的社会热点问题。文章通
在在线学习环境中,依据学习者的行为为其推荐合适的问题回答者,可有效提高其学习效果.目前许多的问题回答者推荐研究考虑到了问答数据,但没有考虑行为因素对推荐问题回答者的
《三国演义》之所以流传百世,脍炙人口,如今又被拍成84集电视连续剧,除了给人们提供了丰富多彩的"以少胜多"、"以弱胜强"、"出奇制胜"的战例之外,就是将气象条件作为一个重要
利用常规观测资料和物理量资料,对2013年4月29日广西桂东南暖区暴雨天气过程进行诊断分析.结果表明,地面中尺度辐合线及500hPa高空槽是这次暴雨过程产生的重要影响系统,桂南位于