论文部分内容阅读
目前视频网站成为人们上网时不可或缺的娱乐途径,但现在的视频网站对视频的分类以及描述参差不齐,其主要原因就是没有构建统一的视频信息知识库,而构建知识库的核心技术就是网络爬虫的设计。本文针对视频类网站进行了详细研究。通过深入分析视频类网站页面的树形结构的构架,并基于HTMLParser的信息提取方法 ,从种子页面中提取出相关的视频信息用于视频信息知识库的构建。