论文部分内容阅读
随着互联网技术的飞速发展,Web信息呈现出指数级的增长,WWW中蕴含了海量的信息可供我们利用。但是,人们想要获取一条需要的信息就变得非常困难。如何准确、快速的检索所需信息,成为有待解决的问题。搜索引擎的出现部分缓解了信息搜索的问题,其结果并不能令人满意。Web信息抽取正是顺应网络发展以及人们对于信息需求的要求不断提高而出现的。它为Web数据挖掘、新一代搜索引擎、面向专业领域的垂直搜索、Deep Web数据集成、QA自动问答等系统提供了巨大的数据支持。
本文从实现技术角度,研究了具有代表性的Web信息抽取系统,总结了各个抽取系统的特点,针对其页面解析能力弱、适应性不强等不足之处,形成本文的研究目标,即建立一个与页面表达的领域无关、页面解析能力较强的Web信息抽取系统-WINE(Web Information Extraction的缩写)。该系统充分利用Web页面的位置特征、布局特征、外观特征和内容特征,以页面分块作为数据抽取的基础,以编辑距离作为相似度计算模型。
本文总结了建立WINE系统的四个方面的工作:第一,页面解析,根据Web信息抽取系统对页面解析的要求,利用浏览器控件对Web页面进行解析,解决了页面标记的容错、Javascript和CSS复杂脚本解析等问题;第二,页面分块,利用VIPS算法对Web页面按其语义进行页面分块,通过细粒度划分,有效的对数据记录进行分割;第三,数据区域定位,利用Web页面位置特征,提出一种高效的自顶向下的数据区域块定位方法;第四,结合Web页面块布局等特征与页面的DOM树结构,利用字符串编辑距离,给出了一种有效的噪声记录清除与数据记录抽取方法。
在WINE系统实现过程中,我们采用准确率(Precision)、召回率(Recall)和修正率(Revision)对WINE系统与MDR系统在准确性上进行了对比实验。实验结果表明WINE系统具有良好的性能,有较强的实用价值。