论文部分内容阅读
万维网中数据的高速增长使得Web已经成为了全球最大的信息库。面对这个数量庞大、结构各异、半结构化的数据库,用户很难在短时间内查找到他们真正需要的信息,从而产生了信息虽然庞大,但有用的内容匮乏的问题。而不同领域的用户所需的信息又有差别,为了解决这个问题,个性化信息采集技术孕育而生,而面向特定网页的网络爬虫是这一技术的实现手段之一。本文深入分析了现阶段海量网络资源与通用搜索引擎技术上缺陷之间给用户带来的不便,根据国际上的开发现状说明了研发这项系统的必要性和紧急性。通过系统结构图的方式介绍了网络爬虫的工作流程,进而对爬虫的两个主要模块:网页获取、内容提取做了简要分析。对于网页分析主要分析了通用的三种网页的搜索策略及其优缺点。对网页内容提取主要介绍了相关的难点和技术困难。按照系统设计中应遵循的原则,通过图的形式给出了应用层、业务逻辑层、数据层的系统体系结构。通过详细的设计,完成了本系统在信息的采集、处理、存储等方面的模块。同时列出了系统的关键部分:爬行策略、链接分析、信息提取的算法实现。最后进行了数据库的设计。该爬虫系统对URL评价:判断URL域名、对不完整URL进行恢复(恢复URL网络协议、主机名、当前页面在服务器的文件名),并采用最佳优先爬行策略进行爬取,将获得的网页信息进行分析(基于HTML树形结构),获取、解析相关论坛的评论信息,存储、并提供给用户。最后设计了友好的图形用户界面,实现人机交互。实验和测试证明了本爬虫原型系统的正确性和有效性,以实例展示了本系统的爬行结果和最后存储的有效评论信息,该原型系统能够高效地获取特定网页的相关信息并展示给用户。