基于Web页面结构的网页数据提取技术探究

来源 :产业与科技论坛 | 被引量 : 0次 | 上传用户:maria76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅速发展,各种各样的数据信息呈现出爆炸性的增长,而网络上的数据主要来自于Web数据。然而受到多种因素的影响,人们往往不能在众多的数据当中提取到需要的或者感兴趣的内容,所以如何在众多的数据当中提取到有用的内容并且存储起来十分的重要。现阶段,对此方面的研究大多是以HTML标签解析为依据基于网页DOM树结构,再利用包装器的设计方式进行相应的提取技术。本文以DOM树结构为基础,主要对Web页面抽取和相关技术进行概述,研究了Web页面数据的区域定位算法,从而进行网页数据记录抽取工作。
其他文献
介绍了集中供热管线过汾河,采用大管径直埋、无补偿、无固定、管道预热伸长等新工艺的施工技术,克服了水下直管段较长无法设置补偿器和常年受河流冲刷对管道的影响等问题,开
随着新教改的不断推进,许多传统学科的教学方式、教学方法都发生了改变,这些改变以近两年兴起的多媒体技术等新兴技术为依托,以先进的教学思想为导向,将传统学科与现代社会发
现在的课堂上经常出现一个很突出的问题:教师教的很辛苦,学生学得很痛苦,但学生却没有得到应有的发展,这实质上是无效或低效教学。教学效率高不高,并不是指教师有没有教完内