论文部分内容阅读
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法.抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配.因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找.实验证明,该方法具有较强的网页信息抽取能力.