基于脚本代码和局部数据匹配的网页抽取研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:xxxxkeat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,Internet在我们日常的生活中扮演越来越重要的角色,成为我们生活和工作中必不可少的一部分。网络的高速发展带来了网络信息的爆炸式增长,而网络用户对信息的需求也越来越高。作为Web信息的主要载体,HTML网页的结构也越来越复杂,网页内容也越来越丰富。但web上的信息都是半结构化或非结构化的,主要以HTML语言的形式出现,不能直接用于分析处理。因此,如何将web上信息抽取出来,以便用户根据需要对数据加以分析,成为现今数据抽取方面的研究热点。Web信息抽取按其自动化程度可以分为:手工抽取、半自动抽取、全自动抽取,全自动化网页信息抽取技术已经成为网页信息抽取的主要发展趋势。其过程是:1)首先将网页转换成相应的DOM结构,聚类DOM结构相似的网页;2)接受两个相似页面,一个作为样本,另一个作为页面包装器(wrapper),之后符号化输入页面,通过页面中字符串和标记的符号归纳规则,生成对应的包装器;3)通过包装器完成对其他同类页面的抽取。然而面对现实中结构复杂变化迅速的web页面,基于DOM结构的聚类方法存在准确性差时间代价高等问题,且当页面的DOM结构发生改变特别是层次性变化时,包装器经常出现失效的情况。本文提出了一套新型的抽取方法,首先把嵌入在网页中脚本代码转换成控制代码树,采用动态规划算法求树之间的最小编辑距离,将小于阈值的网页聚为一类,之后采取强容错性抽取策略自动生成抽取规则,完成对同类网页的抽取。本文的创新点以及研究贡献主要有以下几方面:1.首次定义和提出控制代码树的概念并将其作为近似页面聚类的依据,控制代码树更能体现同类模板网页特性且其树节点规模远小于DOM树。2.本文结合研究背景,提出了一套基于动态规划思想的树编辑距离算法,在O(n3)完成编辑距离的求解。3.采用局部特征匹配、关键数据区域划分等强容错性抽取策略生成包装器,在一定程度上修正了由于标签缺失增补而引起的包装器失效等问题,相比于传统方法,包装器的鲁棒性有明显提高。实验中,选取Google Pagerank排名大于6的10个网站作为实验数据源,这些网站涵盖了商业性网站、门户网站、非盈利性网站等方面,搜索了740个网页作为实验数据集。之后从聚类时间、准确性,信息抽取的查准率查全率,鲁棒性等多个角度将新方法和原有方法进行对比。实验证明,相比于传统方法,新方法在相似网页聚类准确率和时间,抽取准确性和鲁棒性等多个方面优于传统方法。
其他文献
物联网技术成为近些年人们研究的热点,而作为物联网关键技术之一的无线传感器网络更是热点中的关键点。无线传感器网络是一种特殊的Ad-hoc网络,因此其除了具有Ad-hoc网络的一般
随着互联网技术的爆炸式发展,在线交易渐渐成为日常生活中越来越受重视的商品交换方式。确保参与者之间交易的公平性是保证电子支票,电子机票,电子合同签订等电子商务活动可
图是一种重要的数据结构,有着强大的信息表达能力,可以描述现实中诸多网络类型的问题。随着互联网中数据规模的增长,其形成的图结构越来越复杂,如何在大规模数据图中有效地进
可逆水印技术是指水印被提取之后,原始数据能够完全恢复,主要应用于对图像的完整性和真实性要求高的领域,如法律仲裁、医学、军事等。随着三维建模技术的发展,网格水印技术受
随着信息科技的飞速发展,在信用卡欺诈监测、网络流量监控和在线金融交易等场景中产生了大量的数据流。这些数据流中蕴含着大量有价值的信息,为了获取这些信息,人们开展了大
人脸检测技术在人们日常生活中越来越受到关注,特别是在学术研究、国防等领域,每年正以突飞猛进的速度发展壮大。人脸检测是一项综合了多学科、多领域、多层次的高新复合型技术
随着人们对安全问题的重视,监控系统变得无所不在。利用监控系统信息进行人的身份识别变得非常迫切。步态识别,即利用人走路的姿势进行身份识别,是一种新兴的生物特征识别技
近年来,大部分企业已经完成业务数据信息化,各企业都搭建了自己的数据存储系统来存放自身业务数据。企业兼并引起的数据库合并,跨数据库查询服务,数据集成等应用都依赖异构数
随着互联网技术的进步和发展,Web包含了越来越多的丰富信息,从而使Web成为了一个巨大的、分布广泛的、全球化的在线信息源。尤其是近些年来,各式各样的大型数据库逐渐建立起
随着人脸识别技术的日趋成熟,其商业化应用也愈加广泛。不过,随着该技术的不断应用,也出现了十分严重的安全问题。现在,几乎所有的人脸识别系统均无法甄别人脸的真假,也就是