论文部分内容阅读
过去几十年里,Web的迅速发展使其成为世界上规模最大的公共数据源,成为我们工作和生活中不可缺少的一部分。Web数据的主题广泛而且内容多样,用户可以在因特网上找到几乎任何信息。Web上具有各种类型的数据,如结构化的表格、半结构化的网页、无结构的文本以及多媒体文件等,Web上的信息是异构的、包含噪音数据。如何自动从这些网站的有关页面抽取有用的信息,避免噪音数据的干扰,为用户提供一个方便快捷和高效的信息查询平台,是一个值得研究的课题,Web信息抽取技术应运而生。Web信息抽取技术的核心是构造包装器,即编写抽取规则。目前,已经产生了各种各样的方法来生成抽取规则,但这些方法有其不同的局限性,在精确度和通用性方面难以达到很高的要求。随着互联网的发展,XML技术的优势逐渐显示出来。XML数据的独立性把内容及其表示法分离开来,XML文档的结构化而非格式化本质使之很容易由数据库应用程序处理,本文在此基础上提出基于XML的Web信息抽取方法。利用XML相关的标准技术来实现Web信息抽取,将源HTML文档中用户感兴趣的信息抽取出来,快速获取所需信息,采用该技术的信息抽取系统易于维护且具良好的可扩展性。具体创新有以下几点:(1)充分利用了XSLT在解决文档转换问题上的优势,使其与XPath相结合生成抽取规则。并使用XSLT语言描述抽取规则,使得抽取模式更容易达成统一。使用此方法生成的规则易于修改和维护,降低了信息抽取的难度并提高了抽取效率。(2)设计并实现了一种基于DOM树结构的XPath生成算法,深度优先遍历DOM树并快速定位到待抽取信息点,有效解决了待抽取信息点定位难的问题。在多个网站上的实验结果表明,本文提出的Web信息抽取方法能够有效地抽取相似网页中的数据记录,数据记录的抽取准确率达到90%左右,能够较好地满足现实应用中对数据获取精确度的要求。