面向特定网页的Web爬虫的设计与实现

被引量 : 0次 | 上传用户:wangzhaolinghappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网中数据的高速增长使得Web已经成为了全球最大的信息库。面对这个数量庞大、结构各异、半结构化的数据库,用户很难在短时间内查找到他们真正需要的信息,从而产生了信息虽然庞大,但有用的内容匮乏的问题。而不同领域的用户所需的信息又有差别,为了解决这个问题,个性化信息采集技术孕育而生,而面向特定网页的网络爬虫是这一技术的实现手段之一。本文深入分析了现阶段海量网络资源与通用搜索引擎技术上缺陷之间给用户带来的不便,根据国际上的开发现状说明了研发这项系统的必要性和紧急性。通过系统结构图的方式介绍了网络爬虫的工作流程,进而对爬虫的两个主要模块:网页获取、内容提取做了简要分析。对于网页分析主要分析了通用的三种网页的搜索策略及其优缺点。对网页内容提取主要介绍了相关的难点和技术困难。按照系统设计中应遵循的原则,通过图的形式给出了应用层、业务逻辑层、数据层的系统体系结构。通过详细的设计,完成了本系统在信息的采集、处理、存储等方面的模块。同时列出了系统的关键部分:爬行策略、链接分析、信息提取的算法实现。最后进行了数据库的设计。该爬虫系统对URL评价:判断URL域名、对不完整URL进行恢复(恢复URL网络协议、主机名、当前页面在服务器的文件名),并采用最佳优先爬行策略进行爬取,将获得的网页信息进行分析(基于HTML树形结构),获取、解析相关论坛的评论信息,存储、并提供给用户。最后设计了友好的图形用户界面,实现人机交互。实验和测试证明了本爬虫原型系统的正确性和有效性,以实例展示了本系统的爬行结果和最后存储的有效评论信息,该原型系统能够高效地获取特定网页的相关信息并展示给用户。
其他文献
中国教育市场的大趋势呼唤阿波罗模式的出现。大规模经济效益与市场本地化的矛盾有利于品牌连锁经营式大规模教育集团的发展。阿波罗模式与中国实际情况相结合,能够开发出中
当前,随着金融市场的不断发展以及宏观经济形势的不断变化,我国商业银行的经营环境已经发生深刻的变革,探索适合自身情况的发展战略是我国商业银行面对经营环境变化做出的必然选
针对混流式粮食干燥塔生产过程中,物理化学变化复杂,温度变化呈现的非线性和滞后性,难以准确检测的问题,提出了一种基于信息熵的温度预测方法;首先分别采用支持向量机和灰色
<正>《粮食流通管理条例》赋予了粮食行政管理部门依法管粮的法定职能。近年来,宜宾市粮食行政管理部门积极推进粮食法制建设,认真履行依法管理全社会粮食流通职责,狠抓《粮
污水生化处理过程常常受到入水流量水质变化而处于动态过程,溶解氧浓度作为系统运行过程的一个关键变量,采用经典的PI控制器难以保证良好的控制效果;针对污水处理过程的溶解
本文系统研究了休眠/活化反应对原子转移自由基共聚产物的序列结构的影响。首先进行了稳态条件下的计算机模拟,模拟的模型基础是一个以事件为序列的四元共聚Markov链。在稳态
<正>老木匠做了个小木偶,并且用他的神奇雕刻刀,给了小木偶一个笑嘻嘻的表情。于是小木偶带着这唯一的表情,走向了偌大的世界。碰壁是在所难免的,因为我们每个人在这个世界上
伴随着中国经济的高速发展,旅游业作为中国经济的重要组成部分,也正在经历高速迅猛的发展。但毋庸置疑的是,我国旅游业的管理水平还相当低下,尤其是在旅游信息管理方面,还是
自1978年改革开放以来,我国的民营企业成长迅速,中小企业已经成为中国经济的重要组成部分。本文以德州市民营食品企业为研究对象,通过对德州市民营食品企业的研究,认真分析德州市