论文部分内容阅读
随着Internet的高速发展,互联网上的信息越来越多,呈现爆炸式增长,以互联网信息为数据基础的云计算和大数据分析技术随之兴起。然而,在互联网上所有的网页不仅含有重要信息,同时也包含了与主题信息、无关的噪声信息、,比如广告信息,导航栏等。它们严重影响了信息抽取的准确性,因而网页信息抽取技术的研究应运而生,成为研究的热点。另一方面,在现有的网页信息抽取方法中,其重点在于区分页面的重要信息和噪声信息,提高重要信息抽取的准确性和效率性,但对于抽取后网页信息数据却缺乏形式化组织,导致获取的重要信息相互杂糅在一起,形成了无法区分的整段信息,无法对重要信息再进行分类,导致抽取的网页信息粒度较粗,在后续应用中可用性较差。本文介绍了网页信息抽取技术的发展、原理和相关技术,深入讨论了现有网页信息抽取技术,重点研究了VIPS算法。本文主要研究点如下:(1)针对现有网页信息形式化组织的缺乏,本文提出了一种网页信息形式化描述,在清除了网页噪声信息的基础上,将原有网页重要信息、的粗粒度进行细分,针对互联网中比重最大的门户类网站,我们将网页重要信息描述为主题,发表日期,浏览次数,正文信息、,多媒体信息,评论信息等形式化结构,同时为每部分形式化描述设置不同权重,根据信息抽取结果中是否存在相应部分来判断单个网页的信息、抽取的准确性。同时抽取的重要信息通过形式化描述进行了细化,形成了更加规范和严格的数据组织形式,为以后的数据分析和其他应用提供了更高的可用性。(2)针对现有信息抽取算法对本文提出的网页信息形式化组织支持方面的缺乏以及现有抽取技术的不足,本文提出了一种针对网页信息形式化组织的基于VIPS算法改进的网页信息抽取技术。本技术结合了DOM结构和视觉特征两方面,采用自上而下,逆序解析DOM结构,同时利用视觉特征和DOM结构特征作为信息抽取的依据,将标签分块和视觉分块相互结合,同时根据网页信息的形式化描述结构对块进行分类,对于同属一个形式化描述结构的相似块,根据其标签路径等特征对相似块进行合并,最终将网页抽取的重要信息根据其形式化描述分成不同块,此技术综合了网页DOM结构和视觉特征的优势,提高了网页信息抽取的准确率最后,将本文提出的信息抽取方法与其他传统的信息抽取算法进行了比较,并将其抽取结果应用于提出的网页信息形式化组织。经过仿真实验表明,本文提出的网页信息形式化描述更规范,更有利用价值,同时提出的方法抽取信息、具有更高的分类准确性。最终我们将其在现有的传统网页移动化系统中进行了应用试验,实例是基于青岛某大学的PC网站设计的移动校园网站,该移动网站主要用于在移动设备上访问,包括Android以及iOS等智能终端,较好的提高了网页信息重组后的用户体验,取得了比较理想的实验效果。