数据库模式匹配算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：gaobaobao127

【摘要】

：

模式匹配是模式间的一个二元操作,它以源模式和目标模式为输入,以两个模式中元素(在关系型数据库中对应于关系的属性)间的映射关系作为输出。随着数据库应用的越来越广泛,模

【作者】

：

杜小坤

【出处】

：

华中科技大学

【发表日期】

：

2010年期

【关键词】

：

模式匹配部分函数依赖部分函数依赖度词频/逆文本频率结构匹配匹配概率依赖冲突元素块

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

模式匹配是模式间的一个二元操作,它以源模式和目标模式为输入,以两个模式中元素(在关系型数据库中对应于关系的属性)间的映射关系作为输出。随着数据库应用的越来越广泛,模式匹配在越来越多的应用领域中发挥着重要的作用,例如：模式集成、数据仓库、电子商务、语义WEB和P2P数据库等领域。以往的模式匹配操作大都由操作人员手工完成,这是一个费时、费力且易出错的过程,所以自动模式匹配算法的研究是目前一个研究热点。目前对模式匹配问题的研究成果比较丰富,已有的研究成果主要利用元素自身信息(如元素名、数据类型等信息)、数据实例信息(模式中的数据)和结构信息(模式元素相互关联的关系)来挖掘模式语义以获得正确的元素映射关系。但多数研究成果都主要利用元素自身信息计算元素之间的相似度,并根据相似度选取映射关系。已有的匹配算法主要存在如下一些不足,首先,利用的元素对应的数据实例信息和元素间的结构信息不足,信息不够全面,从而导致匹配结果的准确度不高；其次,已有的算法针对目标模式中的每个元素,在源模式的全局范围内搜索其候选匹配元素,搜索范围大,干扰选项多,匹配结果不够准确；另外,由于已有匹配算法都是基于启发式算法,所以对输出的任意一个匹配结果都无法完全确定其正确性。根据模式匹配研究成果的不足之处,在已有的研究基础上,我们针对模式匹配问题做了如下一些研究工作：将模式元素间的相似度分为语义相似度(根据元素自身信息得到的相似度)和结构相似度(根据元素之间的关联关系得到的相似度),并采用新的统计方法计算元素间的结构相似度,然后利用相似概率的概念将结构相似度和语义相似度综合；最后根据相似概率得到模式元素间的映射关系(模式元素之间的对应关系)。该方法是一种利用元素间的结构信息来辅助模式匹配的新方法。首先根据模式对应的数据实例信息来计算模式元素间的部分函数依赖度(模式结构信息),然后根据部分函数依赖关系建立模式元素间的依赖图,再根据元素依赖图计算元素间的结构相似度,最后得到模式元素间的映射关系。由于利用了更多的结构信息辅助匹配,所以该方法在性能上要优于其它仅使用完全函数依赖结构信息进行匹配的方法。这是一种将数据实例信息与结构信息相结合来辅助匹配的新方法。将模式中的元素按照描述对象的不同划分为不同的元素块,然后利用信息检索领域中的经典算法TF/IDF对源模式和目标模式中的元素块进行匹配,最后利用已有的模式匹配算法在相互匹配的模式块之间进行元素匹配。因为当模式中含有较少的元素时,已有的算法能够取得较好的匹配效果,所以利用本方法对大型模式进行分块匹配能取得较好的匹配效果。采用分层策略进行模式匹配研究中的一种全新的观点。从数据转换的角度分析自动匹配算法的匹配结果并提出了匹配结果中的依赖冲突的概念并给出依赖冲突的定义；然后给出了依赖冲突检测分类算法；最后将依赖冲突检测与几种已有的模式匹配方法相结合并对结合前后的匹配结果进行了对比,对比结果显示：在已有匹配方法中结合依赖冲突检测算法能显著提高匹配算法的准确度。

其他文献

网络传销犯罪的刑法规制研究

随着科学技术日新月异的发展,以计算机网络和移动电信网络为代表的网络逐步实现融合,大大减少了实施传销犯罪在时间上和空间上的束缚,传统传销借助互联网演变成网络传销,在互

学位

网络传销组织、领导传销活动罪经济类犯罪

论清水砼采用塑料模板-型钢龙骨体系施工

以方太研发大楼工程清水混凝土塑料模板-型钢龙骨体系施工为研究目标,通过现场样板施工,分析清水混凝土施工中可能发产生的问题,进行技术攻关。在该工程圆满完成次项工作,并

期刊

清水混凝土塑料模板

消极防弊·积极兴利·价值增值(四)——20世纪内部审计的回顾与思考:1980～1990年

期刊

内部审计审计委员会职业道德规范CIA内部审计师协会价值增值回顾与思考

甲状腺结节硬度对细针穿刺细胞学检查标本满意度的影响

目的:研究甲状腺结节硬度对细针穿刺细胞学检查(FNAC)标本满意度的影响,从而指导FNAC术前计划拟定,提高FNAC标本的满意度。方法:本实验为回顾性研究,收集浙江大学医学院附属

学位

甲状腺结节硬度细针穿刺标本满意度

面向关系数据库的模式匹配方法研究

随着信息技术的高速发展,不同企业在实际应用中都产生了大量的数据,这些数据通常以关系数据库形式存储,并维护于各自的信息系统当中。随着信息共享需求的日益加强,企业内部或

学位

关系数据库模式匹配专家知识聚类辅助词典关联性

基于风险管理的企业内部审计探析

本文笔者针对企业内部审计与风险管理概述、企业内部审计在风险管理的作用及两者之间的关系进行深入探析,使企业在不断发展的经济社会中找到正确的定位。

期刊

风险管理企业内部审计审计方法探析

山东省抗旱预案研究

旱灾是主要的自然灾害之一。尤其近几十年来,干旱发生的频率越来越高,程度也愈来愈严重,极大地制约了国民经济和社会的发展。如何预测干旱、应对干旱,使由干旱而引起的负面影

学位

抗旱预案地下水干旱干旱指标抗旱措施模糊综合评判

城镇污水厂工艺诊断与优化研究及其应用

目前,国内大部分污水处理厂的运行管理中,常常依靠管理者的个人经验来调整工艺运行参数,即称为经验控制。但是随着经济的快速发展,污水厂进水水质特征波动范围较大,出水的水

学位

污水处理厂智能化诊断FCASM3动力学参数工艺模拟优化

烟气再循环及分段送风对链条炉NO_x生成的数值模拟

以某10t／h链条炉为研究对象，运用FLUENT软件分别对此链条炉在无烟气再循环和采用烟气再循环技术时炉膛内的燃烧过程、温度场以及NOx的生成情况进行数值模拟。并且比较了循环烟

期刊

烟气再循环NO_x链条炉数值模拟

中国科技文化近代化与传统文化

【正】中国科技文化近代化,经历了与西方国家不同的发展历程,它是在引进和学习西方先进科技文化的过程发展形成的。因此,在这一过程中,如何处理西方科技文化与中国传统文化

期刊

中国传统文化洋务运动中国科学文化

数据库模式匹配算法研究

其他学术论文