基于XML用户定义需求的WEB信息提取研究

来源 :西南大学 | 被引量 : 0次 | 上传用户：ji55643212

【摘要】

：

随着近些年互联网的飞速发展，Internet已经发展成为一个庞大的发布和共享信息资源的平台。但是如何从海量、无结构或半结构化的数据中快速、高效地获取用户所需的信息仍然是亟

【作者】

：

王迎

【机构】

：

西南大学

【出处】

：

西南大学

【发表日期】

：

2014年期

【关键词】

：

WEB技术信息提取 XML技术用户自定义 DOM树结构映射

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着近些年互联网的飞速发展，Internet已经发展成为一个庞大的发布和共享信息资源的平台。但是如何从海量、无结构或半结构化的数据中快速、高效地获取用户所需的信息仍然是亟待解决的热点问题，因此WEB信息提取技术应运而生。目前学者们已经进行了大量的研究工作，但现有的技术仍然存在诸多不足之处:提取方法过于专业，不仅增加了用户语义理解的负担，而且不便于用户使用;在提取过程中难以及时获取用户的反馈，影响提取效果;提取内容越复杂，提取规则的健壮性越差。　　基于此，本文在对XML及相关标准和现有基于XML提取方法深入研究的基础上，提出了一种基于XML用户自定义需求的WEB信息提取方法。研究工作包括为以下几方面内容:　　(1)对待提取页面进行处理。HTML页面经过预处理过滤掉无关信息和代码，转换为格式规范的XML文档，为使用户清晰掌握页面结构，将XML文档解析生成可视化的DOM树形式，在节点转换的过程中，标记每个节点类型，并计算其路径表达式，为样本映射和生成提取规则做准备。　　(2)实现用户的提取需求的获取。研究通过定义目标描述待提取数据节点间的层次关系，并且以此作为提取信息输出时的样式结构。用户标记的样本则作为提取规则的生成依据，样本按照映射规则以结构映射或内容映射的方式向目标结构映射，从而得到待提取数据的节点类型信息和位置信息。　　(3)实现提取规则的构造。提取规则由一个或多个匹配目标结构每层节点的模板构成。模板根据目标结构根节点是否存在结构映射分别进行构造。根节点存在结构映射，利用样本结构映射的class属性匹配全文同类别节点，并利用相对路径覆盖父子关系和祖先后代关系，递归生成每层节点模板。根节点不存在结构映射，通过其子节点获取公共路径作为模板匹配的起点，由于该起点位置是唯一的，因此提取仅为样本数据。　　最后通过对比实验，验证了本文提取方法的有效性，证明了该方法提取效果优于现有的两种方法。当提取内容结构复杂时，提取规则具有较好的健壮性。同时实现了该方法的原型系统，通过系统演示表明，用户不仅能够直观的观测到信息提取的整个过程，而且可以及时确定提取结果是否准确并能够方便地进行修改。

其他文献

基于FPGA的RFID数据加解密算法研究

随着物联网发展,RFID作为物联网的关键推动技术备受关注,中国于2009年超过英国,成为了仅次于美国,全球开展RFID项目数量排名第二的国家。RFID射频识别技术具有非接触性、使用

学位

RFIDAES算法FPGA流水线UVM

基于增强学习的大鼠机器人空间导航方法研究

基于脑机接口的动物机器人系统，是以动物为载体，将外部控制指令转化为各种形式的有效刺激施加给动物大脑，从而直接干预动物的感受并控制其行为。随着实际应用的需求越来越迫切，精

学位

动物机器人自动控制增强学习智能融合空间导航方法

基于系统调用序列及参数的异常检测研究

计算机系统安全问题日益突出,异常检测技术由于具备检测未知攻击的能力越来越受到普遍关注。异常检测可以分为基于网络和基于主机的异常检测,本文讨论主要是基于特定主机尤其

学位

系统调用控制流数据流

高速转动无线传感器网络通信测试系统设计与实现

随着计算机技术与网络通信行业的迅猛发展,人们对高速运动状态下信息传递、获取需求越来越强烈。无论是无人机空中作战指挥,还是地面上移动车辆之间的协同等,都需要高速移动

学位

高速移动网络MC13213单轴转台多普勒效应网络编码

Windows下文件保护功能的设计与实现

随着计算机和通信技术的发展,个人及企业的电子文件数量也在不断地增长,这些文件中不乏一些需要个人和企业保密的重要文件。由于个人及企业员工安全意识或者防范能力较差,导

学位

文件保护分区隐藏透明加解密文件系统过滤驱动

基于Kademlia的P2P资源定位研究

P2P技术的诞生给数据集成领域带来了强大的发展动力。传统的集中式数据集成系统具有系统性能依赖服务器这一系统短板,结合P2P和数据集成系统两者优势而诞生的P2P数据集成系统

学位

P2P数据集成DHTKademlia网络快表

基于视觉感知特性的频域数字水印研究

随着互联网技术的不断发展和普及，信息技术为多媒体信息的收发和存取提供了极大的便利，也使信息之间的交流达到了从未有过的广度和深度。信息隐藏利用其伪装这一特点在信息安全

学位

信息隐藏数字水印频域变换人类视觉系统最小临界差异值

基于有色Petri网的语义Web服务组合的验证与测试方法

Web服务组合的目标是通过简单服务的组合形成以满足需求的新服务,这个目标的完成是通过相对简单的Web服务交互的设计。但Web服务组合的执行过程中,复杂的需求的互动往往涉及

学位

Web服务OWL-S有色Petri网Web服务组合测试用例

基于最长名词短语处理的汉蒙神经网络机器翻译模型

学位

基于有限状态自动机的蒙古文同形词校对方法的研究

随着蒙古文信息处理技术的发展,研究内容越来越深入,如何保证文本的正确性,显得越来越重要。因此,校对的工作量也随之增大,对于飞速增长的电子文本,人工校对的方法已经无法满

学位

蒙古文同形词有限状态自动机拼写校对

基于XML用户定义需求的WEB信息提取研究

其他学术论文