论文部分内容阅读
互联网时代Web已经成为各类海量数据和信息的主要载体,成为人们获取大量有用信息的主要数据源。当前,电子商务领域的蓬勃发展,垂直搜索、社交网络的舆情和情感分析等诸多应用,都依赖于Web信息抽取技术来获得大规模的网页数据,因此Web信息抽取技术的研究具有重要的研究意义和商业应用价值。Web信息抽取技术的一个重要研究问题是,研究如何提供一种有效的Web信息抽取规则以方便快速地表示各种复杂结构网页数据记录的抽取逻辑,从而避免硬编码程序编写方式来完成数据抽取。现有的Web信息抽取技术的研究已经取得了一定的成就,然而Web页面技术的发展给Web信息抽取技术领域不断带来新的研究课题。现有Web信息抽取技术与抽取规则研究方面还存在以下主要缺点:1)抽取规则模型和体系设计方面,缺少对完整的抽取过程和模型的深入研究,难以完成深度网页的浏览导航、数据抽取和集成的全过程处理:2)缺少对复杂结构数据记录模型的研究,降低了Web网页数据抽取技术的适用范围;3)抽取规则语言方面,目前主流的抽取规则语言缺乏足够的表达能力来满足复杂结构深度Web页面的数据抽取需求;4)针对动态数据页面模板更新带来的规则包装器失效问题,尽管也有关于规则检测和维护的相关研究,但是缺乏从规则体系层面上对规则检测、维护、更新的表达能力;5)数据抽取特征方面,目前研究利用的网页DOM树的结构特征和视觉特征,虽然可以处理大多数常规的数据抽取应用问题,然而对于上述两种特征无法涵盖和处理的复杂结构网页,在抽取规则的定义和设计层面上缺少足够的特征来提高表达和处理能力;6)缺少对规则语言执行效率的分析和改进,未能从大规模应用场景出发设计和改进现有的规则执行过程,提高数据抽取的效率。在总结现有Web信息抽取规则研究工作的基础上,针对已有研究,本文主要进行了五个方面的研究工作:1)研究设计了Web信息抽取全过程模型,可刻画完整Web信息抽取过程中的浏览导航逻辑、数据抽取逻辑和数据集成逻辑,为设计兼具浏览导航和数据集成的综合处理能力的抽取规则语言提供指导;2)抽取规则体系和模型研究:为了能够更清晰地描述Web信息抽取处理过程,提高Web信息抽取技术处理的能力,本文研究了Web信息抽取过程中涉及到的各类模型,包括复杂结构数据记录模型、基于DOM树结构的自上而下的结构化数据抽取过程模型、页面规则模型、以及包含规则生成、规则检测、规则维护和更新的抽取规则包装器生命周期模型;3)基于对Web信息抽取基本模型的深入研究,本文研究并提出了层次化的Web信息抽取规则综合体系和语言,对每个Web网页建立“数据区-数据记录-数据项”的层次化映射关系,在每个层次上综合利用DOM节点和页面元素的结构、视觉和语义特征,通过抽取谓词的组合来提供对各粒度数据元素的定位、重组、抽取、细粒度过滤、抽取异常检测、维护等各种功能规则,提供强有力的数据抽取逻辑语言表达能力;4)根据多功能化综合规则模型和体系,在规则语言中设置检测规则和维护功能规则,检测页面模板是否发生变化,对已失效的数据抽取规则进行局部修复;5)在抽取规则语言表达能力方面,补充完善了基于语义的数据抽取规则,将语义元素融入到现有的数据抽取规则体系,解决了结构特征和视觉特征难以完成的数据抽取处理问题。在以上关键技术研究基础上,本文研究实现了抽取规则执行引擎,并设计实现了一个完成的Web信息抽取原型系统。基于对商业网站的抽取实验结果表明,本文所实现的抽取技术和抽取规则语言具有较强的表达和处理能力。