论文部分内容阅读
Deep Web中包含了大量有价值的信息,并且信息量在快速增长。随着Web 2.0的发展,越来越多的Deep Web网站开始运用Ajax技术来改善用户体验。但由于Ajax技术可以异步方式与服务器交互,实现无刷新的动态改变页面内容,使得搜索引擎抓取页面时面临着巨大的挑战。传统爬虫由于不具备处理Ajax的能力,在爬取此类Deep Web数据时面临困难,在一定程度上影响信息覆盖率。然而随着Ajax技术的广泛应用,以Ajax为基础的新一代网络信息抽取问题的研究却将变得越来越重要。因此,研究如何获取这类应用Ajax技术的Deep Web网站信息成为了本文工作的出发点。本文的研究内容与成果主要是:(1)首先对国内外Deep Web资源的规模、结构进行了调查研究,研究表明采用Ajax技术的Deep Web网站蕴含着丰富的信息资源。纵观国内外对Deep Web资源发现的新进展,目前对这类应用Ajax技术的Deep Web网站研究的非常少。(2)在Deep Web爬虫体系结构的基础上,详细分析了支持Ajax的Deep Web爬虫所面临的困难:Ajax查询接口的识别、Ajax表单提交、Ajax分页抓取。基于此,构建了支持Ajax的Deep Web爬虫框架。(3)对Ajax查询接口,根据特征将其分为三种类型。针对三种类型的Ajax查询接口,分别给出其识别方法与处理模型。最后完成Ajax表单的提交。(4)基于DOM树和子树的相似度,建立了结果索引页面数据区域识别模型,并以数据区域为基础自动发现分页导航模式。同时对Ajax分页导航模式进行研究,设计了Ajax分页抓取模型,最终抓取到Deep Web网站查询结果。本文进行了大量的实验,验证提出的各种理论和方法的有效性。最后本文提出了有待进一步深入解决的问题,展望该领域科研发展的方向和前景。