面向深层网络的查询规划策略的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:astolzq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,在线数据源(又称为网络数据库)越来越盛行,它们把数据隐藏在查询表单之后,从而形成了所谓的深层网络,和表层网络相比,表层网络的HTML页面是静态的,数据存储在文档中,而深层网络中的数据则是存储在后台数据库中,只有用户在表单上提交了查询后,它才生成动态HTML页面。根据BrightPlanet公司的统计表明,深层网络蕴含的信息量是表层网络的500倍,并且数量每年仍在飞快地增长,所以研究深层网络是必需的而且意义深远。由于Web数据库具有规模大、自治性、异构性、动态性以及不同的数据源具有不同有限的查询能力等特点,使得深层网络数据集成中的查询处理比传统的分布环境下的查询处理更具挑战性。为了解决数据源的自治异构问题,本文提出了一种数据源的描述方法。为了统计每个领域中属性词汇的大小,本文进行了一项调查:使用搜索引擎(例如:Google和bing)和Web目录(例如:invisibleweb.com),收集了200个关于电影、书籍销售、汽车销售和音乐四个领域的数据源,其中每个领域含50个。调查结果表明:随着数据源的增多,它们的总共词汇数量收敛于一个相对较小的范围内。受此启发,为每个属性词汇建立倒排索引。此外,本文还提出了一个模块化的方法,来为目标查询生成可执行的查询规划,它有五个模块共同工作完成这些任务:查询扩展、预处理、查询重写、查找相关数据源和生成模块。本文还设计了一种基于倒排索引高效生成逻辑规划的算法和一种为逻辑规划找出可执行次序的算法。在本文中,因为数据源存在访问限制,所以没有出现在逻辑规划中的数据源可能提供有用的绑定属性,可能有利于可执行查询规划的生成。此外,我们也表明了这些off-query访问在什么情况下是没必要的,以及在这些情况下只使用逻辑规划中的数据源就可以生成可执行的查询规划;也表明了这些off-query访问在什么情况下是必要的,我们提出了一个算法来找到和逻辑规划相关的数据源。最后实验表明本文的算法具有良好的效率、准确率和扩展性。
其他文献
随着信息技术的迅速发展,许多企业为了提高管理水平,纷纷建立了自己的信息管理系统。但是这些信息系统的数据源彼此孤立,数据存储方式可能各不相同,难以实现数据共享,从而形成了信
枣树为我国第一大干果树种,也是重要的药用植物和生态经济树种林。随着枣树栽培面积和规模的迅速扩大,枣树病虫害的发生和危害也逐年严重,给枣农带来巨大的经济损失。针对枣
企业资产管理系统(Enterprise Asset Management System,简称EAMS)是一种具有工作流特性的信息化解决方案。它不仅可以帮助资产密集型企业更加高效地完成对资产设备的跟踪、
本文提出了一种基于遗传算法的基因杂交方法。该方法通过对传统基因杂交方法的研究和生命信息的分析来获得基因的数字化信息,通过使用自适应遗传算法来进行杂交。在自适应遗传
网络态势指由多种网络设备的运行状况和网络行为、用户行为等构成的整个网络当前的状态和变化趋势。网络态势感知技术是一种能够评价当前以及未来一段时间内网络安全状况,并且
从相当规模中的数据中发现数据的模式规律是数据挖掘的意义所在,数据挖掘作为一门学科,刚开始时是针对传统意义上的数据库中的数据而言的。伴随着数据库挖掘技术的成熟,人们
车牌的自动识别技术在智能交通系统中的作用十分重要,广泛的应用于电子警察、高速公路监管与收费、停车场出入管理等领域。而车牌字符的自动识别准确率一直受到图像质量的影
当今社会是一个信息社会,信息瞬息万变。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息
时代不断进步,科技不断发展,在农业领域信息技术的出现让生产过程变得智能化。智慧农业即农业环境智能监控,逐渐进入我们视线。由于现在我国具有的温室监控系统大多数是以硬
随着大数据时代的到来,与大数据相关的技术变革成为学术界和工业界的关注热点。由于图在描述对象之间的联系方面具有丰富的表达能力,因此图被广泛的应用在交通路线的规划、论