论文部分内容阅读
随着Web2.0的兴起和移动互联网出现的普及,互联网已经逐渐成为人们获取信息的主要渠道。各类UGC(User Generated Content)网站的流行,使得互联网上产生了大量由用户产生的内容。但是随着Web数据的爆炸式增长,获取所需的Web信息变得更加困难,Web信息抽取技术的研究也随之展开。近年来,Web信息抽取的方法不断被提出,然而这些抽取方法在实现上各有侧重,在抽取的自动化程度和适用性等方面有很大的提升空间。本文研究并提出了一种基于CSS选择器的Web信息抽取方法,该方法在MDR算法的基础上,结合了CSS的相关特性,有更广泛的适用性。并结合较新的MVVM设计模式,以低耦合的方式实现了基于该方法Web信息抽取系统。抽取系统采用了用户标记的形式来获取数据记录的特征属性。这一方式相较与传统的基于DOM的Web信息抽取方法,在网页结构发生变化时,也能保证抽取的正确性和有效性。同时为了保证抽取的完备性,设计了基于CSS选择器的抽取方法和URL比较法相结合的相似页面URL获取方法。经过抽取实验表明,抽取系统对于多页面的Web信息抽取也有较好的抽取效果。基于MVVM设计模式开发的抽取系统有着更低的耦合性,这使得后续对抽取系统进行扩展成为可能。本文最后使用该抽取系统对亚马逊网站的商品评论信息进行抽取实验,证明了抽取方法和抽取系统设计的有效性。