论文部分内容阅读
面向主题的网络爬虫系统的设计与实现
【摘 要】
:
随着互联网的普及和网络规模的扩大,网页数据量远远超过了通用搜索引擎的覆盖范围。为提高抓取资源的质量,产生了主题网络爬虫。在爬取过程中,主题网络爬虫倾向于访问主题相似度高的页面。传统的主题爬虫策略通常基于网页文本内容或网页链接结构对网页主题进行分析。基于网页文本内容的主题判定策略只关注了网页正文文本信息,由于没有关注链接结构容易陷入局部最优解;基于网页链接结构的主题判定策略能够通过多个网页链接预测网
【出 处】
:
北京邮电大学
【发表日期】
:
2019年01期
其他文献