基于XML用户定义需求的WEB信息提取研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:ji55643212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近些年互联网的飞速发展,Internet已经发展成为一个庞大的发布和共享信息资源的平台。但是如何从海量、无结构或半结构化的数据中快速、高效地获取用户所需的信息仍然是亟待解决的热点问题,因此WEB信息提取技术应运而生。目前学者们已经进行了大量的研究工作,但现有的技术仍然存在诸多不足之处:提取方法过于专业,不仅增加了用户语义理解的负担,而且不便于用户使用;在提取过程中难以及时获取用户的反馈,影响提取效果;提取内容越复杂,提取规则的健壮性越差。  基于此,本文在对XML及相关标准和现有基于XML提取方法深入研究的基础上,提出了一种基于XML用户自定义需求的WEB信息提取方法。研究工作包括为以下几方面内容:  (1)对待提取页面进行处理。HTML页面经过预处理过滤掉无关信息和代码,转换为格式规范的XML文档,为使用户清晰掌握页面结构,将XML文档解析生成可视化的DOM树形式,在节点转换的过程中,标记每个节点类型,并计算其路径表达式,为样本映射和生成提取规则做准备。  (2)实现用户的提取需求的获取。研究通过定义目标描述待提取数据节点间的层次关系,并且以此作为提取信息输出时的样式结构。用户标记的样本则作为提取规则的生成依据,样本按照映射规则以结构映射或内容映射的方式向目标结构映射,从而得到待提取数据的节点类型信息和位置信息。  (3)实现提取规则的构造。提取规则由一个或多个匹配目标结构每层节点的模板构成。模板根据目标结构根节点是否存在结构映射分别进行构造。根节点存在结构映射,利用样本结构映射的class属性匹配全文同类别节点,并利用相对路径覆盖父子关系和祖先后代关系,递归生成每层节点模板。根节点不存在结构映射,通过其子节点获取公共路径作为模板匹配的起点,由于该起点位置是唯一的,因此提取仅为样本数据。  最后通过对比实验,验证了本文提取方法的有效性,证明了该方法提取效果优于现有的两种方法。当提取内容结构复杂时,提取规则具有较好的健壮性。同时实现了该方法的原型系统,通过系统演示表明,用户不仅能够直观的观测到信息提取的整个过程,而且可以及时确定提取结果是否准确并能够方便地进行修改。
其他文献
随着物联网发展,RFID作为物联网的关键推动技术备受关注,中国于2009年超过英国,成为了仅次于美国,全球开展RFID项目数量排名第二的国家。RFID射频识别技术具有非接触性、使用
基于脑机接口的动物机器人系统,是以动物为载体,将外部控制指令转化为各种形式的有效刺激施加给动物大脑,从而直接干预动物的感受并控制其行为。随着实际应用的需求越来越迫切,精
计算机系统安全问题日益突出,异常检测技术由于具备检测未知攻击的能力越来越受到普遍关注。异常检测可以分为基于网络和基于主机的异常检测,本文讨论主要是基于特定主机尤其
随着计算机技术与网络通信行业的迅猛发展,人们对高速运动状态下信息传递、获取需求越来越强烈。无论是无人机空中作战指挥,还是地面上移动车辆之间的协同等,都需要高速移动
随着计算机和通信技术的发展,个人及企业的电子文件数量也在不断地增长,这些文件中不乏一些需要个人和企业保密的重要文件。由于个人及企业员工安全意识或者防范能力较差,导
P2P技术的诞生给数据集成领域带来了强大的发展动力。传统的集中式数据集成系统具有系统性能依赖服务器这一系统短板,结合P2P和数据集成系统两者优势而诞生的P2P数据集成系统
随着互联网技术的不断发展和普及,信息技术为多媒体信息的收发和存取提供了极大的便利,也使信息之间的交流达到了从未有过的广度和深度。信息隐藏利用其伪装这一特点在信息安全
Web服务组合的目标是通过简单服务的组合形成以满足需求的新服务,这个目标的完成是通过相对简单的Web服务交互的设计。但Web服务组合的执行过程中,复杂的需求的互动往往涉及
学位
随着蒙古文信息处理技术的发展,研究内容越来越深入,如何保证文本的正确性,显得越来越重要。因此,校对的工作量也随之增大,对于飞速增长的电子文本,人工校对的方法已经无法满