基于CSS选择器的Web信息抽取的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lelerui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的兴起和移动互联网出现的普及,互联网已经逐渐成为人们获取信息的主要渠道。各类UGC(User Generated Content)网站的流行,使得互联网上产生了大量由用户产生的内容。但是随着Web数据的爆炸式增长,获取所需的Web信息变得更加困难,Web信息抽取技术的研究也随之展开。近年来,Web信息抽取的方法不断被提出,然而这些抽取方法在实现上各有侧重,在抽取的自动化程度和适用性等方面有很大的提升空间。本文研究并提出了一种基于CSS选择器的Web信息抽取方法,该方法在MDR算法的基础上,结合了CSS的相关特性,有更广泛的适用性。并结合较新的MVVM设计模式,以低耦合的方式实现了基于该方法Web信息抽取系统。抽取系统采用了用户标记的形式来获取数据记录的特征属性。这一方式相较与传统的基于DOM的Web信息抽取方法,在网页结构发生变化时,也能保证抽取的正确性和有效性。同时为了保证抽取的完备性,设计了基于CSS选择器的抽取方法和URL比较法相结合的相似页面URL获取方法。经过抽取实验表明,抽取系统对于多页面的Web信息抽取也有较好的抽取效果。基于MVVM设计模式开发的抽取系统有着更低的耦合性,这使得后续对抽取系统进行扩展成为可能。本文最后使用该抽取系统对亚马逊网站的商品评论信息进行抽取实验,证明了抽取方法和抽取系统设计的有效性。
其他文献
查询优化是DBMS设计和实现采用的一项重要技术,是影响数据库性能的关键因素。ORDBMS在继承关系数据库技术的基础上,增加了面向对象特性,可以满足GIS,CIMS,OIS等新兴领域多维
本文试图对我国企业项目管理成熟度模型进行研究,首先将对国内外相关文献进行研究,回顾已有的项目管理成熟度模型,在此基础上,结合我国企业实际情况,从理论上构建反映中国企业项