Deep Web中Web数据库集成关键技术的研究

来源 :东北大学 | 被引量 : 2次 | 上传用户：bailian121

【摘要】

：

随着互联网技术的飞速发展,Web中蕴藏的海量数据信息也在迅速地增长。Web数据库作为一种重要的Deep Web资源,其中包含了大量可供访问的数据信息。这些数据信息具有良好的结构

【作者】

：

聂铁铮

【出处】

：

东北大学

【发表日期】

：

2009年01期

【关键词】

：

Web数据库 Deep Web Web数据库集成元搜索查询结果模式 Web数据库分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的飞速发展,Web中蕴藏的海量数据信息也在迅速地增长。Web数据库作为一种重要的Deep Web资源,其中包含了大量可供访问的数据信息。这些数据信息具有良好的结构化特征且指向特定领域的数据记录,因此能够为科学研究和系统应用提供更高质量的数据服务。然而,在Deep Web中,Web数据库具有异构性、分布性、动态性和自治性,独立存在于Web环境中,这些高质量的数据资源并没有得到很好的利用。Web数据库集成为有效地统一访问这些数据资源提供了解决方案。作为一个新兴的研究领域,Web数据库集成中包含了若干需要解决的研究问题。本文分析了Web数据库集成的研究现状,讨论了Web数据库集成框架的结构模型,重点研究了Web数据库集成中的若干关键技术,包括Web数据库的模式抽取、Web数据库的分类、查询结果记录的抽取与标注和数据的集成与清洗等。本文针对Web数据库集成中主要的研究问题提出了新颖、有效的解决方法,主要工作包括以下几点：(1)提出了一种基于元搜索模式的Web数据库集成框架。Web数据库集成框架的目的是为用户统一访问Web数据库资源提供支持。基于元搜索模式的Web数据库集成框架,能够透明的访问和及时的更新数据,并具有较低的系统运行代价。本文分析了实现Web数据库集成框架中所需的关键技术,将框架分为离线的Web数据库搜索模块和在线的查询处理模块。前者是从Web中发现特定领域Web数据库的查询接口,抽取其模式信息并对其进行分类；后者的目的是实现对Web数据库即时访问,抽取并标注查询结果记录,并将集成后的结果数据集返回给用户。(2)提出了基于实例的查询结果模式抽取方法。完整的模式信息对于数据集成有着至关重要的作用。对于Web数据库而言,查询接口模式决定其功能,而查询结果模式描述了其中的数据内容。现有的研究工作往往只关注于查询接口模式而忽略了查询结果模式。本文给出了基于标签的查询接口模式属性识别方法。在此基础上,提出了基于近似查询和精确查询的两段式模式匹配模型。通过在结果页面的DOM树中匹配查询关键字,并利用查询结果记录在页面中连续出现的特征识别模式属性。同时提出基于属性共现度的匹配方法提高模式属性的查全率和查准率。(3)提出了面向内容的Web数据库分类方法。现有基于领域的Web数据库分类方法已难以满足应用需求。为此,本文提出将领域中记录基于其内容划分为多个主题分类。主要解决方案为：使用主题分类中的样本实例对Web数据库查询探测,并基于查询返回的结果数量构建查询结果矩阵,该矩阵能够准确地反映出主题分类与Web数据库内容之间的匹配关系；基于矩阵内容得到主题分类。基于内容的分类结果能够为查询更准确地匹配Web数据库。(4)提出了一种有效的查询结果记录抽取技术。为避免对大量页面内容的语义匹配,有效地保证数据抽取的执行效率,本文首先基于URL匹配的方法准确的确定要抓取查询结果页面；之后利用查询结果模式抽取中识别出的模式属性路径定位查询结果记录,并实现查询结果记录的抽取与标注。基于属性路径构建的包装器能有效的改善连续查询结果页面中记录抽取的执行效率。(5)提出了一种基于模式属性间函数依赖关系的数据清洗方法。为提高来自多个Web数据库的查询结果记录的数据质量,该方法借助于实体识别技术,利用模式属性间函数依赖关系,能够有效地修复查询结果记录中不完全、不精确和不正确的属性值。同时,给出了增量式数据集成方法,即通过对记录集合的数据质量评估结果决定集成的顺序,有效地提高了数据集成的执行效率。(6)设计并实现了一个Web数据库集成的原型系统DDW Search。基于本文对Web数据库集成框架关键技术的研究成果,实现了基于特定领域的原型系统。用户可以通过系统提供的全局查询接口输入查询请求,并查看由多个Web数据库返回的查询结果。总之,本文研究了Web数据库集成框架及涉及的关键技术,对其中包含的主要研究问题提出了新颖的解决方案。大量的实验结果与分析表明这些方法能够有效地解决在Web数据库集成中存在的问题,同时具有较高的准确性和执行性能。希望本文对于Web数据库集成的研究和提出这些方法对于这一领域的研究工作具有一定的参考价值。

其他文献

生理水平流体剪应力对三维多孔支架中成骨细胞力学敏感性及黏附、分化的影响

目的构建可以达到生理剪应力水平的三维流动模型,研究流体剪应力对成骨细胞黏附、分化及力学敏感性的影响。方法利用灌注式流动腔对生长在β-磷酸三钙(β-TCP)多孔支架内的MC

期刊

生理水平三维支架流体剪应力成骨细胞细胞分化力学敏感性

可口可乐公司核心能力研究

基于企业核心能力理论对可口可乐公司进行分析,详细分析可口可乐公司核心能力具有的特征及维持可口可乐成为一流企业的核心能力。探索可口可乐公司经历120多年发展历程一直成

期刊

核心能力可口可乐能力

弹性福利计划在建设银行的应用研究

员工福利是单位薪酬体系的一个重要组成部分,近几年来随着国家法定福利体系的逐步完善以及企业自身对员工福利的重视,福利费用在全部员工费用中的比重呈逐步增长态势。随着各

学位

弹性福利建设银行应用研究

在幼儿手工活动中融入民间手工艺术

我国是历史悠久的文明古国,民俗文化有着丰富而充实的底蕴,而民间手工艺术更是中华民俗文化的一朵奇葩,是一个民族精神情感的载体和民族特征的体现。在幼儿园开展民间手工活

期刊

手工生活动手能力

林洋电子智能电网金牌供应商

<正>江苏林洋电子股份有限公司主要从事电子式电能表、用电信息管理系统及终端产品和其他电工仪器仪表产品的研发、生产和销售,主营产品有电子式电能表、用电信息管理系统及

期刊

电子式信息管理系统电能表智能电网

商业银行X支行房贷风险分析及对策

随着国家住房制度改革的全面推进和金融体制改革的逐步深入,我国商业银行将普遍逐步把发展住房贷款业务作为一个新的利润增长点。但是发展的过程并不是一帆风顺的,而是问题重

学位

商业银行住房贷款风险控制风险压力测试

“刘易斯拐点”难以解释“用工荒”原因探析

金融危机过后,我国东南沿海地区出现新一轮的用工荒,有人试图用"刘易斯拐点"这一理论解释该现象的发生,但却无法回避金融危机时期农民工大量失业这一事实;换言之,"刘易斯拐点

期刊

刘易斯拐点用工荒农民工

九江港口物流与物流企业协同发展研究

协同发展是目前经济发展过程中普遍存在的一种现象。协同发展需要合作双方在发展中步调一致。物流系统的各方在市场规模和市场竞争力方面很大程度上受服务效率和物流成本的影

学位

港口物流物流企业协同发展

论大学生责任教育

责任教育是大学德育的基础。所谓责任教育,是指以培养大学生的内心责任感、责任意识、责任认知水平、责任承担能力和责任践行自觉性等为主要内容的教育活动。责任教育的成败

学位

大学生责任教育实施

高中生物教材图表：设置·归类·特点及应用实例

随着我国新一轮基础教育课程改革的不断推进,以新课标为依据的多种版本的中学生物教材陆续问世。不管是何种版本的生物教材,图表都占据了较大的比重。本研究旨在深入分析高中

学位

生物教材图表设置分类特点运用

Deep Web中Web数据库集成关键技术的研究

其他学术论文