基于HTMLParser视频信息抽取系统的设计与实现

来源 :科技传播 | 被引量 : 0次 | 上传用户：lintso1101

【摘要】

：

目前视频网站成为人们上网时不可或缺的娱乐途径,但现在的视频网站对视频的分类以及描述参差不齐,其主要原因就是没有构建统一的视频信息知识库,而构建知识库的核心技术就是

【作者】

：

史诚

【机构】

：

同济大学软件学院

【出处】

：

科技传播

【发表日期】

：

2011年22期

【关键词】

：

网络爬虫视频爬取 HTMLPARSER

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前视频网站成为人们上网时不可或缺的娱乐途径,但现在的视频网站对视频的分类以及描述参差不齐,其主要原因就是没有构建统一的视频信息知识库,而构建知识库的核心技术就是网络爬虫的设计。本文针对视频类网站进行了详细研究。通过深入分析视频类网站页面的树形结构的构架,并基于HTMLParser的信息提取方法 ,从种子页面中提取出相关的视频信息用于视频信息知识库的构建。

其他文献

浅议图书馆开架借阅的管理与服务

本文首先阐述了图书馆开架借阅服务的重要意义,分析了开架借阅管理中存在的问题,并从提高藏书质量、管理水平、读者教育等方面就如何解决这些问题提出了自己的若干看法。

期刊

图书馆开架借阅管理服务

坎地沙坦联合胺碘酮转复房颤及预防房颤复发疗效观察

目的：探讨坎地沙坦联合胺碘酮转复房颤及预防房颤复发的疗效。方法：将持续性房颤患者87例随机分为坎地沙坦-胺碘酮联合治疗组（即治疗组）与胺碘酮治疗组（即对照组）,进行转复治疗及预

期刊

血管紧张素受体拮抗剂坎地沙坦心房纤颤胺碘酮心律失常Angiotensin receptor blocker Candesartan Atrial

经皮肾镜超声碎石术后出血的原因分析和护理

目的：探讨经皮肾镜超声碎石取石术后出血的原因及护理对策。方法：回顾性分析2002年3月-2008年11月107例经皮肾镜超声碎石取石术治疗肾及输尿管结石患者的临床资料,共发生术后出

期刊

经皮肾镜肾结石出血护理

水利工程成本控制初探

水电工程施工项目作为水利水电施工企业经营管理的最基本单元,加强企业管理,控制工程成本,注重质量管理、成本管理等工作,对于水利水电施工企业寻求持续稳定发展具有重要意义

期刊

水利工程成本控制管理

46例食管癌根治术围手术期护理体会

目的：探讨食管癌手术围手术期的有效护理措施,以提高护理质量。方法：调查并总结食管癌根治术46例,了解其术前,术后的护理。结果：46例患者经术前、术后精心护理,均顺利渡过围手术

期刊

食管癌围手术期护理

老年肠穿孔1例误诊反思

肠穿孔弥漫性腹膜炎是临床常见的急腹症。正确、及时处理十分重要。现将1例老年肠穿孔误诊病例介绍如下。

期刊

肠穿孔老年人

电力线载波通信报文压缩技术研究

本文采用数据压缩技术可以有效的提高数据传输。基于LZW压缩算法,论文提出了其改进算法及程序流程,探索了LZW算法在电力线载波通信报文压缩中的应用,给出了该方案的压缩性能

期刊

电力线通信数据压缩LZW

基于HTMLParser视频信息抽取系统的设计与实现

其他学术论文