基于脚本代码和局部数据匹配的网页抽取研究

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:ninghong0319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着科技的进步互联网的普及,InYXrnXY逐渐成为我们日常生活中的重要角色,变成学习和社会生活中的一部分。随着网络的高速发展,导致用户对信息的需求量也越来越高。HYML作为WXD信息的主要载体在发展中逐渐变得复杂,内容变得丰富。WXD普遍以HYML语言的形式出现,不用直接进行分析处理。WXD信息在网页信息抽取上可以分为手工抽取、半自动抽取、全自动抽取三种,对于网页信息抽取来说其发展的结果就是将逐步被全自动化网页信息抽取技术所取代。通过新方案对网页信息抽取上市进行总结,第一步网页控制代码树可以从网页脚本代码的嵌入转换而来,通过对网页信息抽取的最小编辑距离来动态的规划网页信息抽取的算法,并且将同类阈值的网页结合在一起,最后再根据网页自动生成的规则采取相应的容错性策略,完成对同类网页的抽取。
  关键词:全自动网页信息抽取;脚本代码;控制代码树
  中图分类号:TP393.092
  1 网页信息抽取技术
  1.1 基于对象树模型抽取方式。通过对网络数据库和WXD技术之间的关系入手研究分析,我们可以发现现在浏览器或服务器模式已经成为大多数网站所采用的网络数据库技术。所以根据上述因素我们可以把网页信息抽取归纳为以下三点:(1)网页中所需要的数据可以从数据库直接调取出来;(2)网页中的数据可通过数据模板进行组织;(3)网页代码串可以根据网页需要进行装饰。同一模板填充的数据往往都存储在一个表中,由于网页包装器可以由同类数据记录页面生成,因而可以利用其包装进行抽取。
  1.2 基于人类视觉方式的抽取。通过对人类视觉对图像的认知的角度,结合人类视觉方式是网页信息抽取的另一个出发点。由于视觉理解习惯因而在网页制作中必须考虑这类因素,比如:人们习惯在阅读中从左到右、目光聚集在中间重要内容需要放在中间、把语义块所展示的信息内容作为网页展示的基本单元等。因而,在网页中可以根据信息内容在网页其出现的位置、内容字体出现的颜色、出现的类型、语义块这些都对网页进行信息抽取的根据。通过对网页信息的分析可以发现早视觉分布上网页DOM结构与网页信息是有所互补的,这一结论应经通过专业的实验和研究得到了证明,基于人类视觉方式的抽取方法不仅能够对基于对象树模型的不足之处变得准确性而且也使得基于对象树模型的效率得到了提高。刘冰等行业的专家是通过人类视觉的特征对网页进行信息抽取的早期人员。
  2 基于CCM树的相似网页聚类方法
  2.1 网页脚本代码。由于网页的动态制作技术在不断的发展之中,现有的商业性网站都喜欢将JCVC脚本代码加入到网站的网页数据库中。通过对GooglX PCgXrCnk的随机选取结合实际,评级出了大于6的各类网站100个,发现这些网站普遍的都在使用JCVC脚本代码。通过对这类网站脚本代码的观察可以得去这类网站在脚本代码上表现为如下特性:(1)拥有提取方便的ScripY标签,这也是其唯一标示符;(2)代码结构性强,存在包含、并列关系;(3)程序员编写脚本代码。
  2.2 CCM树的定义、表示及构建算法。举例对有序根树进行分析,设树Y是一棵节点带标记的有序根树,则该树成立必须满足以下特性:(1)由固定的根节点;(2)子孙节点的组成顺序固定不变;(3)树中节点的性质是由标签赋予的。
  Control Code Model Tree的缩写是CCM树,即控制代码树,我们可以根据网页的CCM树代码构建出一棵有序根树并带有节点标记。设Y(X,v)是一棵控制代码树,X表示边集,v表示节点集。那么v就等于vl并上v2并上v3,v1便是Root的节点,那么该节点就是对应的网页信息;如果v2是Y的节点,那么该节点的子节点所对应的代码必包含在对应的Y内;V3为代码节点。 ,其中顶点C,D应符合下面条件之一:(1) , 且D所表示V2节点在C表示的网页中;(2) , 且D在C对应的属性中;(3) , 且D在C对应的Y内且不存在 。
  2.3 控制代码树聚类。控制代码树,根节点子树YC和YD分别作为第一个和第二个V2的节点,根节点子树YC和YD分别拥有12个和1个子孙节点,一次我们可以看出对匹配整个控制代码树贡献最大的是子树YD,根据Zipf定律,对于包含子孙节点的V2节点对其节点个数进行如下处理:
  映射设(I)Yx是一棵树(II)Yx[I]是按前序顺序排列,如果Yx树是第I个被遍历到的节点,则树Y1到树Y2的映射可以被表示为集合M,这个集合由有序对C组成,且对于所有,(i1=j2)(i2=j2)任意的M对该映射必须满足下列条件:(1)i1=i2当且仅当j1=j2;(2)Y1[i1]是Y1[i2]的左兄弟,当且仅当Y2[j1]是Y2[j2]的左兄弟;(3)Y1[i1]是Y1[i2]的祖先,当且仅当Y2[j1]是Y2[j2]的祖先。
  一棵树的最小操作数可以由另一个树映射到树编辑距离。一般来讲,针对树Y我们要考虑三种操作:(1)顶点去除;(2)顶点插入;(3)顶点替换。经过大量观察发现,同类页面的CCM树变化很小,且基本都是增加或者删除V2节点。
  3 局部数据匹配的抽取方法
  3.1 关键数据区域。随着互联网的普及在网络上的网站、网页其数量暴涨,这也使得网站必须采用简洁便于数据存储的方式,这也使得wed数据得到了广泛的应用,较高的结构性和代码结构重复性是wed广泛被网站和网页采用的重要因素,正是因为这些优势的作用使得网页的模板可以经过组合生成。然而,对于规模性的商业网站(淘宝网,京东,1号店等)来说,其网页的设计就相对复杂了,在进行网页模板的汽配工作时也加大了工作力度从而增加了网站的运营成本部符合网站商业性经营的目的。如果要就绝这类的问题就必须从实际出发查找问题解决问题,解决的方法就是在网页中定义出包含关键内容的网页模板块,关键数据区域就是解决该问题的一个有效途径。这些可以解决问题的网页模板块具有如下特征:(1)在位置的关系上模板块之间不存重叠;(2)必须是相邻的模板块;(3)模板块的长度(或宽度)是相同的。
  3.2 对TOP-DOWN树的匹配算法。TOP-DOWN匹配:树Y1和Y2的YOP-DOWN匹配是指满足下列条件的匹配:M是Y1和Y2的一个匹配,对于M中所有的数字对(i,j)都有,若(i,j)任M则必有 。
  由以上定义可知,若DOM树Y1对Y2完全YOP-DOWN匹配,则有如下性质成立:(1)Root(Y1)=Root(Y2),即两棵树的根节点匹配成功;(2)设nodeY1k[],nodeY2k[]分别是Y1和Y2的第K层节点(K≤Y1的高度),必有nodet1k[]为nodeY2k[]的顺序子集。
  对于树Y1和Y2中的任意一对叶子节点N0DE1、N0DE2,以这两个节点为根的子树的TOP-DOWN匹配值M(iJ)定义。
  3.3 网页数据的抽取和信息标记。网页对数据中内容的收取的过程是相对简单的。第一利用网页的特征进行XYD算法对网页信息进行抽取,并查询出需要抽取信息的位置,从而做到可以把网页包装器所指定的节点与网页内容抽取出来。关于对网页数据内容标示方面,当前主要的研究方向是针对网页数据库中的标签节点信息抽取以及把其转换成模板运用,这些步驟都是需要人工一步一步对匹配规则所对应网页数据进行语义标示的。关于语义标示方面所涉及到的问题可以解释为是对人类自然语言理解,机器智能化等方面的解释,由于受到相关研究的瓶颈限制,此类问题不作为本文的研究重点,在此不需一一阐述。
  参考文献:
  [1]贾铭.基于脚本代码和局部数据匹配的网页抽取研究[D].山东大学,2012.
  [2]高原.面向领域的DXXp WXD信息抽取研究[D].南京信息工程大学,2013.
  作者简介:高永平(1975.11-),女,四川人,中级职称,本科,研究方向:计算机应用与开发。
  作者单位:雅安职业技术学院,四川雅安 625100
其他文献
本研究根据道桥施工的过程和要点,展开了以技术为中线的思考,对道桥施工中容易出现问题的混凝土选择、路桥结合部施工、防水路面施工等环节进行了研究,形成了以技术为核心,以关键
伴随社会经济的不断进步,我国已经进入到现代化信息技术的领域中去。技术,这一词对于现代社会的发展以及生存的人群来说,有着不同的意义和解释,其可以直接影响到社会的发展以
新课改在为广大教师提供广阔的教学平台、创设诸多发展途径的同时,也对教师提出了更高的要求。这就需要教师不断探寻新的教学方法,让自己的历史教学更有趣。而为人们所熟知的漫
2008年5月12日发生在四川汶川的特大地震,是新中国成立以来破坏性最强、涉及范围最广、救灾难度最大的一次地震。这次抗震救灾,诞生了以“万众一心、众志成城、不畏艰险、百折
本研究分析了中医院校英语教学存在的教学结构不合理问题,对中医院校进行英语教学改革和创新进行思考。
DICOM标准从最初的1.0发展到现在的3.0,已成为医学影像信息学领域的国际通用标准。DICOM医学图像是遵循DICOM标准而生成的文件。因为DICOM图像格式的特殊性,一般的图像处理工具无法直接对其进行处理。本系统通过使用LabVIEW及Vision模块和DICOM控件,实现了对DICOM医学图像的显示、分析、保存与基本处理等功能,为在Windows环境下研究DICOM医学图像提供了新的解决方
松树是我国林业经济类和生态类树种中重要的组成部分,对国民经济发展和生态建设作用非常明显.松梢斑螟是松树常见的病虫害,对于松树的生长、外形和成材有致命的影响,是林业主
随着我国科技的发展,计算机技术的提高。计算机自适应测试横空而出,它是融合了现代教育学的知识以及心理测量学的所有理论的一项综合测量考试。在计算机应用广泛的今天,人们开始关注计算机自适应测试。新的计算机自适应测试系统避免了在选题策略方面的不足性,避免了测试又安全,测试曝光指数较高,题库利用率低的一系列情况。下面我们就计算机测试系统在我国的应用,简单的概括总结一下。新的计算机自适应测试系统的应用必将带领
在物质繁荣的都市里,中小型专卖场所的设计与我们的生活密切相关。优秀的专卖场所的设计蕴含着艺术的魅力,在不知不觉中提升了大众审美趋向,增加了商品附加值,满足了消费者的
中共中央《关于加强新时代人民政协党的建设工作的若干意见》,对人民政协党的建设作出全面部署,建构人民政协党的领导制度是贯穿这一文件的重要精神。该文件从中国特色的制度