基于网页分块的论坛爬虫关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:duncan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Web2.0技术的发展,作为一种典型的用户创建内容的应用,网络论坛在全世界非常流行。每天有无数个针对能够想象到的所有话题或问题的页面被互联网用户创建,因此论坛数据实际上已成为承载人类知识的巨大数据集。随着网络论坛信息量的增大,论坛网页收集工具的精确性和高效性都面临着巨大的挑战。在这种形势下,迫切需要开发一套高效的论坛爬虫系统。本文围绕着论坛爬虫这一前沿技术,通过深入研究网络论坛的特征,网络爬虫的工作原理和相关技术的基础上,把网页分块的思想引入到论坛爬虫的爬行策略中以及在各种论坛中如何实现对不同论坛服务器的爬行,本文的主要成果可归纳为以下几个方面:本文在对网络论坛进行大量调研和深入分析的基础上,归纳总结出论坛的基本特征;接着对现有爬虫爬行论坛时遇到的问题进行了分析,找出了引起这些问题的根源;为了解决这些问题,在主题爬虫的一些爬行策略启发下,把网页分块思想引入到论坛爬虫中,并提出一些优化论坛爬虫的方法。本文研究了网页分块的一些算法,提出了适合论坛页面的分块算法——基于论坛页面结构的垂直分块算法(WPS-VSA)。实验表明,这种算法有较好的通用性,而且对论坛页面有很高的页面分块精度。本文研究了网络爬虫的一些爬行策略,提出了适合大部分网络论坛的通用论坛爬行算法——基于页面分块的论坛爬行算法(WPS-FCA)。利用此算法可以在线过滤无效页面的链接;同时利用论坛页面的特征解决了页面翻页问题,为那些利用论坛网页内容的数据挖掘应用打下了良好的基础。实验表明,这种算法不光节省了下载论坛网页的网络带宽和存储论坛网页的空间,而且还大大提高了抓取论坛网页的准确率和覆盖率,同时也方便了针对论坛数据内容的各种应用。基于上述的理论研究成果,本文设计并实现了一个论坛爬虫原型系统。
其他文献
认证协议是安全协议中最基本、最重要的一种,其目标是实现通信实体的身份认证和在通信实体间分发会话密钥。对认证协议的攻击形式有很多,但已构成的攻击事例中,百分之九十以
近年来,随着计算机计算速度和能力的大幅提高,传统的加密技术已经不能满足当代网络通信安全性的需求。由于混沌具有一系列较好的特性,如对初始条件和控制参数的极端敏感性,伪随机
基于背包问题的公钥密码算法是密码学历史上最早被设计出来的几个公钥密码算法之一。由于背包密码的快速加解密优势和背包问题是NP完全问题,很长一段时间内背包算法受到普遍
数字水印技术是信息隐藏技术的重要研究方向,它在数字图像等多媒体版权保护以及内容认证方面具有重要价值。互联网的便捷性和数字媒体复制的低成本,在促进数字产品在现实中的
程序是用计算机程序设计语言编写的用于实现某种操作的指令集合,程序为了对抗逆向分析或者是代码窃取,通常会采取一些自我保护技术,程序行为或者代码隐藏技术属于其中的一种。程
任何一门学科的快速发展都离不开社会需求的支持和推动,随着人们对生活质量和健康水平的日益重视,医学已经成为本世纪发展得最快的学科之一。在医学迅猛发展的过程中积累了大
随着海量数据的急剧增长,数据的有效处理和计算成为目前亟待解决的问题。目前,由传统的机构结构化数据发展到大量半结构化、非结构化数据,这种趋势给传统的数据处理工具带来了很
加强对高压电缆的实时状态监控是确保高压电正常工作的重要环节,随着我国电力的高速发展,对电缆电压进行有效的在线监测手段将成为迫切需求,社会各界给予了极大的关注,并在多
随着计算机网络的发展,数字媒体的传播越来越方便快捷,然而由此引发的版权问题也日益尖锐,数字水印作为一种解决数字版权问题的有效手段,正越来越受重视。而随着新的需求逐渐展现
随着话题检测、社区发现、垂直搜索引擎等Blog研究的展开,对于结构化Blog数据的渴求也日益强烈,然而传统Web信息抽取在丰富灵活多变的Blog数据源中遇到了很大挑战,因此专门针