支持Ajax的Deep Web爬虫技术研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:shajia0902
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep Web中包含了大量有价值的信息,并且信息量在快速增长。随着Web 2.0的发展,越来越多的Deep Web网站开始运用Ajax技术来改善用户体验。但由于Ajax技术可以异步方式与服务器交互,实现无刷新的动态改变页面内容,使得搜索引擎抓取页面时面临着巨大的挑战。传统爬虫由于不具备处理Ajax的能力,在爬取此类Deep Web数据时面临困难,在一定程度上影响信息覆盖率。然而随着Ajax技术的广泛应用,以Ajax为基础的新一代网络信息抽取问题的研究却将变得越来越重要。因此,研究如何获取这类应用Ajax技术的Deep Web网站信息成为了本文工作的出发点。本文的研究内容与成果主要是:(1)首先对国内外Deep Web资源的规模、结构进行了调查研究,研究表明采用Ajax技术的Deep Web网站蕴含着丰富的信息资源。纵观国内外对Deep Web资源发现的新进展,目前对这类应用Ajax技术的Deep Web网站研究的非常少。(2)在Deep Web爬虫体系结构的基础上,详细分析了支持Ajax的Deep Web爬虫所面临的困难:Ajax查询接口的识别、Ajax表单提交、Ajax分页抓取。基于此,构建了支持Ajax的Deep Web爬虫框架。(3)对Ajax查询接口,根据特征将其分为三种类型。针对三种类型的Ajax查询接口,分别给出其识别方法与处理模型。最后完成Ajax表单的提交。(4)基于DOM树和子树的相似度,建立了结果索引页面数据区域识别模型,并以数据区域为基础自动发现分页导航模式。同时对Ajax分页导航模式进行研究,设计了Ajax分页抓取模型,最终抓取到Deep Web网站查询结果。本文进行了大量的实验,验证提出的各种理论和方法的有效性。最后本文提出了有待进一步深入解决的问题,展望该领域科研发展的方向和前景。
其他文献
身份认证需求充斥着社会生活的各个方面,人们对身份认证的安全性和人性化要求也越来越高。传统的身份认证通过密码匹配、刷卡等方式实现,具有架构简单、成本低等优点;但存在
随着Internet技术和通信技术的快速发展,政务办公系统和电子商务系统在政府和企业中广泛应用,基于现代信息技术和通信技术的“电子政府”应运而生。政府机构使用新的政府办公
近年来,随着计算机和互联网技术的飞速发展,多媒体数据呈现爆炸式的增长,多媒体信息的存储、传输和处理变得越来越重要,尤其是图像处理相关的研究和应用。显著性检测是图像分
随着计算机网络技术以及数值仿真技术的发展,仿真技术越来越多地应用到航天航空领域。探空火箭仿真系统正是基于这一背景而提出。其中,探空火箭运载系统仿真作为一个重要联邦
现行软件的结构越来越复杂,而处理器本身由于功耗的原因,性能提升的空间正在逐步缩小,另外硬件性能提升必然引入成本的增加,此时软件优化技术就扮演了更重要的角色。BLAS库作为现
Web服务发现是面向服务的架构模型中一个至关重要的部分,随着面向服务理念被越来越多的人所接受,Internet上Web服务的数目和种类也迅速增加,如何在海量的Web服务中选择最符合
随着Internet的迅速发展和广泛应用、电子商务和信息技术的迅速发展,数据库在不同的行业和领域得到了广泛的应用。海量的信息和大量的用户请求对数据库管理系统提出了严峻的
传统的织物染色配色技术是基于Kubelka-Munk理论的三刺激值配色和全光谱配色,但以该理论为基础的配色方法引进了较多的假设,使得配色的误差较大,难以满足工业生产的需求。鉴
无线传感器网络(WSN)是由大量低成本、低功耗、处理能力低和能源受限的微型传感器节点组成的无线多跳自组织网络,各节点相互协作地感知、采集、处理和传输网络覆盖区域内被感
分类是数据挖掘和机器学习领域的一个热点问题,传统的分类问题主要关注数据分布平衡的情况,但是在实际应用当中数据不平衡的情况时有发生。数据的不平衡给分类直接或间接地带