论文部分内容阅读
现今通用搜索引擎仅能收录Web上通过链接可以爬行到的页面部分。然而对于大量的深度网资源,由于搜索引擎的爬虫无法通过链接爬行到这些页面,因而搜索引擎无法索引到这部分信息。据统计,目前深度网资源量是普通可索引到的资源的500倍左右。这些信息隐藏在Web页面的查询表单(深度网入口)后面,保存在大型的动态数据库中。如此庞大的信息资源如果没有合理的、高效的方法去获取,无疑将是巨大的损失。此外,深度网的研究涉及数据集成、中文语义识别等多个领域。因此,对于深度网爬行技术的研究具有极为重大的现实意义和理论价值。
目前的研究表明,深度网资源涉及的领域广泛且深度网入口形式缺乏统一规格,因而深度网资源不可能做到统一的集成,只能针对某一领域进行研究。基于此,本文设计并实现了一种结合深度网爬行技术在内的主题领域爬虫系统。系统旨在对某一领域进行包括深度网资源在内的全方位的爬行,以获得更全面、更优质的主题资源。系统采用基于本体域的入口定位及基于网页标签距离及语义判别的方法抽取入口模式。并且对主题特征词的学习采用一种在线学习的特征词训练方法。实验表明,爬虫可以较好地发现深度网资源,实现了对包含深度网信息在内的主题资源的大量获取,获得更多更丰富的信息。