论文部分内容阅读
随着互联网的高速发展,Internet在我们日常的生活中扮演越来越重要的角色,成为我们生活和工作中必不可少的一部分。网络的高速发展带来了网络信息的爆炸式增长,而网络用户对信息的需求也越来越高。作为Web信息的主要载体,HTML网页的结构也越来越复杂,网页内容也越来越丰富。但web上的信息都是半结构化或非结构化的,主要以HTML语言的形式出现,不能直接用于分析处理。因此,如何将web上信息抽取出来,以便用户根据需要对数据加以分析,成为现今数据抽取方面的研究热点。Web信息抽取按其自动化程度可以分为:手工抽取、半自动抽取、全自动抽取,全自动化网页信息抽取技术已经成为网页信息抽取的主要发展趋势。其过程是:1)首先将网页转换成相应的DOM结构,聚类DOM结构相似的网页;2)接受两个相似页面,一个作为样本,另一个作为页面包装器(wrapper),之后符号化输入页面,通过页面中字符串和标记的符号归纳规则,生成对应的包装器;3)通过包装器完成对其他同类页面的抽取。然而面对现实中结构复杂变化迅速的web页面,基于DOM结构的聚类方法存在准确性差时间代价高等问题,且当页面的DOM结构发生改变特别是层次性变化时,包装器经常出现失效的情况。本文提出了一套新型的抽取方法,首先把嵌入在网页中脚本代码转换成控制代码树,采用动态规划算法求树之间的最小编辑距离,将小于阈值的网页聚为一类,之后采取强容错性抽取策略自动生成抽取规则,完成对同类网页的抽取。本文的创新点以及研究贡献主要有以下几方面:1.首次定义和提出控制代码树的概念并将其作为近似页面聚类的依据,控制代码树更能体现同类模板网页特性且其树节点规模远小于DOM树。2.本文结合研究背景,提出了一套基于动态规划思想的树编辑距离算法,在O(n3)完成编辑距离的求解。3.采用局部特征匹配、关键数据区域划分等强容错性抽取策略生成包装器,在一定程度上修正了由于标签缺失增补而引起的包装器失效等问题,相比于传统方法,包装器的鲁棒性有明显提高。实验中,选取Google Pagerank排名大于6的10个网站作为实验数据源,这些网站涵盖了商业性网站、门户网站、非盈利性网站等方面,搜索了740个网页作为实验数据集。之后从聚类时间、准确性,信息抽取的查准率查全率,鲁棒性等多个角度将新方法和原有方法进行对比。实验证明,相比于传统方法,新方法在相似网页聚类准确率和时间,抽取准确性和鲁棒性等多个方面优于传统方法。