数据密集型网页信息抽取相关技术的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:aiming4636j
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,网上信息资源越来越丰富,网络已经成为人们获取信息的重要途径。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息。如何快速、准确的从浩瀚的信息资源中寻找到所需信息已经成为困扰网络用户的一大难题。在这种情况下,Web信息抽取技术的研究也就成为一项重要且迫切的课题。   从网页中抽取信息的程序称为包装器(Wrapper)。关键的任务是:包装器的构造要尽可能快速,不需要过多人为地参与,并且,构造出的包装器要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。   当前互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。这类含有多条商品信息,且信息之间结构相同的页面,又被称为数据密集型页面。本文在分析了这种包含商品信息的数据密集型页面特点的基础上,提出了一种针对这类页面的自动信息抽取方法,并就其中几个关键技术,如页面去噪、数据记录抽取及数据单元标注,进行了探讨和研究。本文的主要工作可以概括为以下几个方面:   (1)页面去噪相关技术研究商业网站的页面里含有大量与主题无关的内容,在对页面进行抽取之前需要对页面预处理,去除一些噪音,这样可以减少后续的工作量。本文将页面预处理过程分为三个步骤,HTML文档修正及解析、基于DOM树的节点过滤、DOM树匹配去噪算法。HTML文档修正及解析主要的目的是将HTML页面转化成正确的DOM树结构;节点过滤是将页面里的注释节点、隐藏节点、