论文部分内容阅读
伴随着Web2.0技术的发展,作为一种典型的用户创建内容的应用,网络论坛在全世界非常流行。每天有无数个针对能够想象到的所有话题或问题的页面被互联网用户创建,因此论坛数据实际上已成为承载人类知识的巨大数据集。随着网络论坛信息量的增大,论坛网页收集工具的精确性和高效性都面临着巨大的挑战。在这种形势下,迫切需要开发一套高效的论坛爬虫系统。本文围绕着论坛爬虫这一前沿技术,通过深入研究网络论坛的特征,网络爬虫的工作原理和相关技术的基础上,把网页分块的思想引入到论坛爬虫的爬行策略中以及在各种论坛中如何实现对不同论坛服务器的爬行,本文的主要成果可归纳为以下几个方面:本文在对网络论坛进行大量调研和深入分析的基础上,归纳总结出论坛的基本特征;接着对现有爬虫爬行论坛时遇到的问题进行了分析,找出了引起这些问题的根源;为了解决这些问题,在主题爬虫的一些爬行策略启发下,把网页分块思想引入到论坛爬虫中,并提出一些优化论坛爬虫的方法。本文研究了网页分块的一些算法,提出了适合论坛页面的分块算法——基于论坛页面结构的垂直分块算法(WPS-VSA)。实验表明,这种算法有较好的通用性,而且对论坛页面有很高的页面分块精度。本文研究了网络爬虫的一些爬行策略,提出了适合大部分网络论坛的通用论坛爬行算法——基于页面分块的论坛爬行算法(WPS-FCA)。利用此算法可以在线过滤无效页面的链接;同时利用论坛页面的特征解决了页面翻页问题,为那些利用论坛网页内容的数据挖掘应用打下了良好的基础。实验表明,这种算法不光节省了下载论坛网页的网络带宽和存储论坛网页的空间,而且还大大提高了抓取论坛网页的准确率和覆盖率,同时也方便了针对论坛数据内容的各种应用。基于上述的理论研究成果,本文设计并实现了一个论坛爬虫原型系统。