Deep Web数据集成系统中数据抽取与语义标注研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:castchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于Internet上数据具有异质性和多样性的特征,导致同一个领域中不同网站的结构也有很大差别,因此,用户要从Web上逐渐增多的海量数据中找到自己感兴趣的信息变得日益困难。目前,一项重要工作就是把结果页面中用户感兴趣的相关数据抽取出来,并为其添加语义信息,然后集成为统一的结构化形式,以供后续处理及使用,这就是Deep Web数据集成系统中数据抽取和语义标注。在Deep Web数据集成系统的研究中,现有的数据抽取方法依赖于查询接口模式和查询结果模式,或者使用树编辑距离算法导致时间复杂度高,影响了数据抽取的效果。本文将XML技术运用到抽取过程中,并且基于本体进行语义标注,主要工作有以下几个方面:1.提出了一种基于索引路径的数据抽取方法,先为每一个文本节点建立索引路径,再通过关键字定位数据区,形成抽取规则,输出相应的Wrapper,利用Wrapper能够对同一个网站中相同领域的同类网页进行自动地数据抽取。这种方法既不依赖HTML文档的标签,也不使用树编辑距离,而是充分利用用户感兴趣的数据在网页中的连续性和结构相似性的特点定位数据区,抽取数据,形成抽取规则。2.应用领域知识、数据内容、表现形式和数据类型等数据特征对嵌套属性的数据单元进行拆分。对于返回的查询结果页面,有些网站中一个标签下面可能会存储多个属性,在进行语义标注之前需要对其进行拆分。3.应用图书领域本体中概念与概念,概念与实例之间的映射关系对部分属性值进行语义标注,对其他的属性值应用其特殊的数据格式来形成标注规则。
其他文献
近些年随着社会进步和科学技术的迅速发展,软件产品的应用更加广泛,已经涉及到社会的各个领域。与此同时人们对软件产品质量的关注程度也逐步增强,不论是软件的开发者还是软
近些年来,越来越多的学者和研究人员关注智能优化领域,智能优化算法因而得到广泛地研究,并且应用到多个领域,例如生物信息学、数据挖掘、模式识别、城市规划和软件工程管理优化,等
三维地质建模是运用计算机在三维环境下进行地质分析的技术。传统的地质信息模拟与表达只是将三维空间信息在某一平面上进行呈现,存在空间信息损失与失真、制图过程繁杂和更
随着社会的发展和技术的进步,人们越来越意识到海洋在人类社会发展进程中的重要作用。海洋为大类提供广阔的发展空间和资源优势,对于海洋进行一定深度和广度上的开发成为世界
句法分析是自然语言处理的主要任务之一。本论文的目的和任务是对给定的自然语言句子,根据给定的语法自动识别其句法结构,并分析句子所包含的句法单位以及这些句法单位之间的
针对应用中常见的时滞系统以及系统中最常见的一类传感器和执行器故障本文研究含测量时滞系统的故障诊断问题。首先综述了故障诊断和控制的国内外研究现状,介绍了时滞系统的故障诊断制成果。然后利用最优理论、对偶原理、线性矩阵不等式及状态观测等技术,提出了在系统中含有不时滞情况下的故障诊断和容错控制方法。本文的研究内容概括如下。1.对带有故障的线性系统模型进行了描述,并对本文所研究的一类已知动态特性未知初始状态
随着信息技术在劳动力市场和社会保障管理方面的广泛应用,各地劳动保障系统中积累了大量的劳动力就业、失业、求职和招工的数据。这些数据是大量的、不完全的,但同时又是非常
随着互联网技术的高速发展和大数据时代的来临,数据呈爆炸式增长,如何对这些数据进行智能分析和自动处理,高效地挖掘出潜在的有使用价值和社会竞争力的信息就显得愈发重要。
在当今这个信息时代,随着计算机技术突飞猛进的发展,各种智能化机器也走进了人们生产生活的各个方面,致使人们渴望与机器之间的交流能像人与人之间的交流一样自然流畅。这种
随着软件的广泛应用,特别是软件在尖端领域的应用,软件的可靠性成为一个非常重要的问题。软件的可靠性主要取决于软件开发的方法与过程,同时,又取决于软件系统的测试与验证。UML