论文部分内容阅读
Internet的迅速发展使得网络上的信息量大大增加,为用户提供了一个极具价值的信息源,但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息。如何快速、准确的从浩瀚的信息资源中寻找到所需信息己经成为困扰网络用户的一大难题。 随着XML技术的不断发展,WWW上出现了一些以XML作为标记语言的Web网页,本文针对XML网页,提出了一种面向特定主题的信息抽取方法。它根据用户给定的查询主题及其属性,提出一种从样本网页集中抽取出模式信息的方法,然后利用这个模式信息对处理过的目标XML网页进行匹配查询,最终从这些目标网页中利用所提出的模式匹配算法抽取出用户所需的数据。 本文首先对Web信息抽取的发展情况进行了综述,然后重点讨论了针对某一主题的XML文档的分析和抽取方法及实现,以及今后的发展趋势,最后利用一个实例进行了实验,实验结果表明系统达到了较高的精确度,得到了比较全面的信息,从而较好地实现了系统预期要到达到的完整性和准确性要求。