基于状态转换的动态爬虫系统设计与实现

来源 :中山大学 | 被引量 : 5次 | 上传用户:mingtiandetianming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络爬虫按照一定规则抓取Web信息,是搜索引擎技术的重要组成部分。随着Web2.0的兴起,在网页开发中大量的运用Ajax技术。区别于传统网页,Ajax技术使用异步的方式向服务器发送请求,并根据响应更新页面。Ajax极大地降低了服务器的负载,同时也提高了用户体验。与此同时,Ajax技术部分更新HTML页面的方式也对传统爬虫技术提出了严峻挑战。本文在介绍分析传统爬虫爬行原理与结构的基础上,结合动态网络爬虫需要解决的问题,设计并实现了一种可以抓取动态网页数据的网络爬虫系统。本文完成的主要工作如下。首先,在前人关于动态网络爬虫模型的研究基础上,基于图结构的思想,经过改进,提出了基于状态转移的动态网络爬虫模型,从而使用状态的转移过程模拟动态事件触发对网页结构的改变。并结合动态爬虫的需求和真实的网络环境,在网页去噪、新状态去重、新状态抓取等方面对算法模型进行了细化改进。其次,本文根据该模型,使用调用浏览器内核以及本地构建JavaScript解析环境两种方法,设计实现了针对动态网页数据的爬虫系统。在保持传统爬虫功能的基础上,添加了对动态数据抓取的支持。最后,本文通过对真实网页的抓取实验,比较了两种方法与传统爬虫的优势和不足。验证了该系统的可行性和有效性。
其他文献
二十一世纪被称为电子信息的时代,随着互联网技术的成熟,移动通讯和无线网络技术在短短几年的时间迅速的发展起来。作为移动通信和无线网络技术的直接承载体——智能手机在生活
法律硕士教育是为国家培养具有社会主义法治理念、德才兼备、高层次的复合型、实务型法律人才的一种专业学位教育。全日制法律硕士是相对于在职法律硕士而言的,是指具有大学本
在全球化发展日益迅速的今天,文化多元化已成为不可逆转的趋势。不同文化在前所未有的交流与碰撞时,培养国家未来接班人具备跨文化意识、具有全球视野直接关系到我国的发展进程
HTML5是目前Web的一种前端开发技术,它的特性在主流的浏览器中快速获得支持,反映出它的功能和优势。HTML5提供之前版本需要插件才能实现的功能,消除或降低了Web页面设计脚本的复
研究目的:机体不能保持特定的机能水平,或不能维持一定的运动强度称为运动性疲劳。运动性疲劳诊断手段的丰富与完善,一直是运动生理学的研究热点。然而随着现代竞技运动水平的快
自改革开放以来,随着中国市场经济的迅猛发展,我国法律硕士(JM)的培养院校及毕业生人数也实现了几何级的增加。在近20年里,我国的法律硕士教育,一方面从最初的单纯引进美国法
弓形虫病(Toxoplasmosis)是由弓形虫(Toxoplasma gondii)引发的人兽共患的寄生虫病,它可感染人类和多种哺乳动物,呈世界范围分布,严重危害人类健康和畜牧业的发展。人类可通过食入未
语言在现实生活中使用是“一个不断选择的过程,不管这种选择是有意识的还是无意识的,也不管它是出于语言内部的原因还是出于语言外部的原因”(Verschueren,1999)。作为语言表达的
目的:探讨Notch-1信号通路对Eca-109-EMT的调控作用,明确激活Notch-1信号通路后对Eca-109的增殖、凋亡、迁移能力的影响。方法:明确Notch-1信号通路调节食管鳞状细胞癌EMT的作用
提高课堂教学效率,一直是教育追求的目标。自教育部于2003年颁布并实施《普通高中语文课程标准(实验)》以来,课程改革已取得了一定的成效,教学理论和实践都有了丰富和发展。但是,在