基于状态转换的动态爬虫系统设计与实现

来源 :中山大学 | 被引量 : 5次 | 上传用户：mingtiandetianming

【摘要】

：

网络爬虫按照一定规则抓取Web信息，是搜索引擎技术的重要组成部分。随着Web2.0的兴起，在网页开发中大量的运用Ajax技术。区别于传统网页，Ajax技术使用异步的方式向服务器发送请

【作者】

：

姜皓文

【出处】

：

中山大学

【发表日期】

：

2014年01期

【关键词】

：

动态网页网络爬虫状态转换 Ajax

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网络爬虫按照一定规则抓取Web信息，是搜索引擎技术的重要组成部分。随着Web2.0的兴起，在网页开发中大量的运用Ajax技术。区别于传统网页，Ajax技术使用异步的方式向服务器发送请求，并根据响应更新页面。Ajax极大地降低了服务器的负载，同时也提高了用户体验。与此同时，Ajax技术部分更新HTML页面的方式也对传统爬虫技术提出了严峻挑战。本文在介绍分析传统爬虫爬行原理与结构的基础上，结合动态网络爬虫需要解决的问题，设计并实现了一种可以抓取动态网页数据的网络爬虫系统。本文完成的主要工作如下。首先，在前人关于动态网络爬虫模型的研究基础上，基于图结构的思想，经过改进，提出了基于状态转移的动态网络爬虫模型，从而使用状态的转移过程模拟动态事件触发对网页结构的改变。并结合动态爬虫的需求和真实的网络环境，在网页去噪、新状态去重、新状态抓取等方面对算法模型进行了细化改进。其次，本文根据该模型，使用调用浏览器内核以及本地构建JavaScript解析环境两种方法，设计实现了针对动态网页数据的爬虫系统。在保持传统爬虫功能的基础上，添加了对动态数据抓取的支持。最后，本文通过对真实网页的抓取实验，比较了两种方法与传统爬虫的优势和不足。验证了该系统的可行性和有效性。

其他文献

中学生智能手机使用状况与学生人际关系的相关研究

二十一世纪被称为电子信息的时代，随着互联网技术的成熟，移动通讯和无线网络技术在短短几年的时间迅速的发展起来。作为移动通信和无线网络技术的直接承载体——智能手机在生活

学位

智能手机智能手机使用状况人际关系人际关系困扰

贵州省全日制法律硕士教育的现状分析及对策研究

法律硕士教育是为国家培养具有社会主义法治理念、德才兼备、高层次的复合型、实务型法律人才的一种专业学位教育。全日制法律硕士是相对于在职法律硕士而言的，是指具有大学本

学位

贵州省全日制法律硕士教育现状分析对策研究

异质文化视角下的高中语文外国文学作品阅读教学研究

在全球化发展日益迅速的今天，文化多元化已成为不可逆转的趋势。不同文化在前所未有的交流与碰撞时，培养国家未来接班人具备跨文化意识、具有全球视野直接关系到我国的发展进程

学位

异质文化跨文化意识高中语文教材外国文学作品

基于HTML5的3Ds Max课程教学资源交流平台的设计与开发

HTML5是目前Web的一种前端开发技术，它的特性在主流的浏览器中快速获得支持，反映出它的功能和优势。HTML5提供之前版本需要插件才能实现的功能，消除或降低了Web页面设计脚本的复

学位

HTML53Ds Max资源平台兼容性

生物反馈技术在运动性疲劳监控中的应用研究

研究目的：机体不能保持特定的机能水平，或不能维持一定的运动强度称为运动性疲劳。运动性疲劳诊断手段的丰富与完善，一直是运动生理学的研究热点。然而随着现代竞技运动水平的快

学位

生物反馈技术运动性疲劳心率变异性脑电图肌电图皮肤导电水平

法律硕士实践课程规范化研究

自改革开放以来,随着中国市场经济的迅猛发展,我国法律硕士(JM)的培养院校及毕业生人数也实现了几何级的增加。在近20年里,我国的法律硕士教育,一方面从最初的单纯引进美国法

学位

法律硕士实践课程规范化贵州省

弓形虫致密颗粒蛋白GRA7基因的原核表达及牛血清ELISA检测方法的建立

弓形虫病（Toxoplasmosis）是由弓形虫（Toxoplasma gondii）引发的人兽共患的寄生虫病，它可感染人类和多种哺乳动物，呈世界范围分布，严重危害人类健康和畜牧业的发展。人类可通过食入未

学位

弓形虫致密颗粒蛋白7原核表达酶联免疫吸附试验

顺应论视角下的称谓语动态选择及功能研究

语言在现实生活中使用是“一个不断选择的过程，不管这种选择是有意识的还是无意识的，也不管它是出于语言内部的原因还是出于语言外部的原因”（Verschueren,1999）。作为语言表达的

学位

顺应论称谓语红楼梦动态选择文化

Notch-1信号的激活对食管鳞状细胞癌上皮—间质转化和生物学的影响

目的：探讨Notch-1信号通路对Eca-109-EMT的调控作用，明确激活Notch-1信号通路后对Eca-109的增殖、凋亡、迁移能力的影响。方法：明确Notch-1信号通路调节食管鳞状细胞癌EMT的作用

学位

Notch-1信号通路上皮-间质转化食管鳞状癌细胞(Eca-109)增殖迁移凋亡

高中外国文学作品高效课堂研究

提高课堂教学效率，一直是教育追求的目标。自教育部于2003年颁布并实施《普通高中语文课程标准（实验）》以来，课程改革已取得了一定的成效，教学理论和实践都有了丰富和发展。但是，在

学位

高中外国文学作品高效课堂理论构建实践探究评价体系

基于状态转换的动态爬虫系统设计与实现

与本文相关的学术论文