论文部分内容阅读
随着互联网的迅猛发展,网页的信息量呈指数型增长,逐页浏览信息已经不能满足人们的要求,信息抽取技术应运而生。信息抽取技术使人们不用进一步人工筛选符合自己需求的内容而是直接帮助人们从海量网络数据中获取有价值的信息。网页信息提取技术主要围绕两个方向展开,包装器和结构识别。前者的缺点在于对网页的结构依赖性强,可重用性差,通用性差。本文则是结构识别的一种,该方法对网页中半结构化信息能良好的定位和识别,并且对大多数网页具有通用性,生成的结果能直接应用于本体生成,实用价值高。本文所研究的抽取系统中实现的爬虫是一个增量型的、深度优先爬取的定向爬虫。它通过配置文件来生成爬取任务,一个配置文件对应一个爬取任务。配置文件有特定的格式和配置字段,由人工编辑生成,只需配置大约十多个字段,就可以完成对于特定网站、特定领域、特定主题的内容的定向爬取配置。对网页进行清洗之后,本文针对有<TABLE>标签的表格提出了基于启发式规则的实体定位算法和基于网页URL归类的实体定位算法。基于标签特征、表格结构特征、表格内容特征本文总结了六条规则,依次通过对六条规则生成字符串,然后采用有穷自动机来识别字符串,最后根据停留在不同的状态判断是否是真表格。为提高定位的准确度,本文提出了URL归类实体定位法,通过对URL的类别分类,能将不含有表格的网页去除。这两种方法的结合使得表格定位具有较高的准确度。同时,本文针对有特殊符号的无<TABLE>标签的表格制定了启发式规则,针对用标签组织的无<TABLE>标签的表格提出了基于DOM树和启发式规则相结合的定位方法。在表格结构识别中,本文通过对表格属性名和属性值类型的不同构建了类型树,通过计算单元格之间的类型差异判断出表格的展开方式。同时,本文提出了将表格数字化,通过计算单元格之间长度差异判断出表格的展开方式,将两者判断的结果赋予不同的权值,最终判别出表格为横向展开还是纵向展开。并且本文根据类型差异和结构差异判断出表头所跨越的行数或列数。